Microsoft เพิ่งเปิดตัวเครื่องมือปัญญาประดิษฐ์ตัวใหม่ที่เรียกว่า VALL-E ซึ่งคล้ายกับ DALL-E แต่ใช้เสียง หลังจากฟังเสียงเพียงสามวินาที VALL-E สามารถจำลองเสียงใดๆ ก็ได้

จากข้อมูลของ AITopics เครื่องมือใหม่ของ Microsoft สามารถจับคู่อารมณ์และน้ำเสียงได้อย่างง่ายดาย ซึ่งเป็นสิ่งที่เครื่องมือ AI เสียงจำนวนมากต้องเผชิญ ทีมฝึก VALL-E ด้วยข้อมูลเสียงพูดภาษาอังกฤษประมาณ 60,000 ชั่วโมง และแสดงให้เห็นความสามารถในการเรียนรู้ตามบริบท และยังสามารถจำลองคำที่ไม่เคยได้ยินได้อีกด้วย อ้างอิงรายงานการทดสอบได้ระบุว่า VALL-E มีความสามารถ TTS ที่พร้อมท์ ตามบริบท และไม่จำเป็นต้องมีอะคูสติกที่ออกแบบไว้ล่วงหน้าหรือวิศวกรรมโครงสร้างใดๆ เพื่อส่งมอบตัวอย่างเสียงคุณภาพสูง
ความต้องการทั้งหมดของ VALL-E คือการได้ยินเสียงใด ๆ ประมาณสามวินาที และจะสามารถเลียนแบบ (หรือทำซ้ำ) เสียงได้อย่างรวดเร็วและง่ายดาย
อย่างไรก็ตาม VALL-E ยังอยู่ในขั้นตอนพัฒนาและยังไม่มีแผนเปิดให้บริการสู่สาธารณะ คาดว่าจะมีข้อกังวลด้านความปลอดภัย ด้านสังคม และด้านจริยธรรมเมื่อมีความชัดเจนเรื่องการเปิดให้บริการออกมา Microsoft เองก็คงมีแผนรองรับเทคโนโลยีที่ฟังดูน่าสนใจนี้ในมุมความกังวลต่างๆ ซึ่งต้องคอยติดตามความคืบหน้าของ VALL-E ในเวอร์ชันอนาคตต่อไป