OpenAI ประกาศเปิดตัวโมเดล Audio รุ่นใหม่ที่มีประสิทธิภาพสูงทั้ง Speech-to-Text และ Text-to-Speech พร้อมให้นักพัฒนาทั่วโลกใช้งานผ่าน API เพื่อสร้าง Voice Agent ที่มีความสามารถในการโต้ตอบอย่างเป็นธรรมชาติ

โมเดล Speech-to-Text รุ่นใหม่ ได้แก่ gpt-4o-transcribe และ gpt-4o-mini-transcribe มีความแม่นยำในการถอดเสียงสูงกว่าโมเดล Whisper รุ่นก่อนหน้าอย่างมีนัยสำคัญ โดยเฉพาะในสภาพแวดล้อมที่มีเสียงรบกวน ผู้พูดที่มีสำเนียงหลากหลาย และความเร็วในการพูดที่แตกต่างกัน ทำให้เหมาะสำหรับการใช้งานในศูนย์บริการลูกค้า, การถอดเสียงการประชุม, และงานอื่นๆ ที่ต้องการความแม่นยำสูง จากการทดสอบบน FLEURS (Few-shot Learning Evaluation of Universal Representations of Speech) พบว่าโมเดลใหม่มีค่า Word Error Rate (WER) ต่ำกว่า Whisper v2, Whisper v3 และโมเดลชั้นนำอื่นๆ ในตลาดอย่างชัดเจน
ในส่วนของ Text-to-Speech OpenAI ได้เปิดตัว gpt-4o-mini-tts ที่มีความสามารถพิเศษในการรับคำสั่งไม่เพียงแค่ “พูดอะไร” แต่ยังสามารถระบุ “พูดอย่างไร” ได้ เช่น “พูดเหมือนพนักงานบริการลูกค้าที่เห็นอกเห็นใจ” หรือปรับโทนเสียงให้เหมาะกับการเล่านิทานก่อนนอน ทำให้นักพัฒนาสามารถสร้างประสบการณ์เสียงที่เหมาะสมกับกรณีการใช้งานที่หลากหลาย อย่างไรก็ตาม เสียงที่สร้างขึ้นจะเป็นเสียงสังเคราะห์ที่กำหนดไว้ล่วงหน้าเท่านั้น ซึ่ง OpenAI มีการตรวจสอบเพื่อให้มั่นใจว่าเสียงที่สร้างขึ้นตรงตามมาตรฐานที่กำหนด
โมเดลใหม่ทั้งหมดพัฒนาขึ้นบนพื้นฐานของสถาปัตยกรรม GPT-4o และ GPT-4o-mini โดยผ่านการ Pretrain ด้วยชุดข้อมูลเสียงที่มีคุณภาพสูง และใช้เทคนิค Reinforcement Learning เพื่อเพิ่มความแม่นยำ นักพัฒนาสามารถเริ่มใช้งานโมเดลเหล่านี้ได้แล้วผ่าน API และสำหรับผู้ที่ต้องการสร้างประสบการณ์แบบ Voice Agent สามารถใช้ Agents SDK ที่ OpenAI เปิดตัวเพื่อช่วยให้กระบวนการพัฒนาง่ายขึ้น บริษัทยังมีแผนที่จะพัฒนาโมเดลเสียงให้ดียิ่งขึ้น รวมถึงเตรียมลงทุนในโมเดลรูปแบบอื่นๆ เช่น วิดีโอ เพื่อให้นักพัฒนาสามารถสร้างประสบการณ์แบบ Multimodal Agent ได้ในอนาคต
ที่มา: https://openai.com/index/introducing-our-next-generation-audio-models/