Google Cloud Platform (GCP) ได้ออกมาประกาศเปิดตัวบริการ Cloud Text-to-Speech โดยใช้เทคโนโลยีจาก DeepMind WaveNet เพื่อให้เสียงพูดนั้นเป็นธรรมชาติมากขึ้น
บริการ Cloud Text-to-Speech นี้จะทำให้เหล่านักพัฒนาเพิ่มความสามารถให้ Application ของตนอธิบายข้อมูลหรือเนื้อหาต่างๆ ทางเสียงได้เหมือนกับที่ Google Assistant, Google Map หรือ Google Search ทำได้ ซึ่ง Google ก็ได้ออกมาแนะนำกรณีการใช้งานที่น่าสนใจเช่น
- ระบบตอบสนองทางเสียงสำหรับ Call Center (IVR) ที่สามารถโต้ตอบบทสนทนาได้อย่างเป็นธรรมชาติแบบ Real-time
- เพิ่มความสามารถให้อุปกรณ์ IoT สามารถโต้ตอบกลับมาด้วยเสียงได้
- เปลี่ยนสื่อที่เป็นเนื้อหาตัวอักษรให้กลายเป็นเสียง สร้างเป็น Podcast หรือ Audio Book ได้
ทั้งนี้เทคโนโลยีของ DeepMind WaveNet ที่นำมาผสานในบริการนี้ด้วย คือระบบ Neural Network ที่ทำการ Train ด้วยข้อมูลเสียงพูดจำนวนมากมาตั้งแต่ช่วงปลายปี 2016 เพื่อทำความเข้าใจโครงสร้างธรรมชาติของการออกเสียงในบทสนทนา ให้มีจังหวะจะโคนที่สมจริง อีกทั้งยังได้นำ Google TPU เข้ามาช่วยประมวลผลให้สามารถสร้างเสียงพูดแบบเป็นธรรมชาติได้เร็วขึ้นกว่าเดิมถึง 1,000 เท่า สร้างเสียงพูดความยาว 1 วินาทีได้โดยใช้เวลาเพียง 50 Millisecond และ Resolution ของเสียงก็มากถึง 16-bit ทำให้มีความสมจริงเป็นอย่างมาก