OpenAI เปิดตัวโมเดล Audio รุ่นใหม่สำหรับพัฒนา Voice Agent อัจฉริยะ

OpenAI ประกาศเปิดตัวโมเดล Audio รุ่นใหม่ที่มีประสิทธิภาพสูงทั้ง Speech-to-Text และ Text-to-Speech พร้อมให้นักพัฒนาทั่วโลกใช้งานผ่าน API เพื่อสร้าง Voice Agent ที่มีความสามารถในการโต้ตอบอย่างเป็นธรรมชาติ

Credit: OpenAI

โมเดล Speech-to-Text รุ่นใหม่ ได้แก่ gpt-4o-transcribe และ gpt-4o-mini-transcribe มีความแม่นยำในการถอดเสียงสูงกว่าโมเดล Whisper รุ่นก่อนหน้าอย่างมีนัยสำคัญ โดยเฉพาะในสภาพแวดล้อมที่มีเสียงรบกวน ผู้พูดที่มีสำเนียงหลากหลาย และความเร็วในการพูดที่แตกต่างกัน ทำให้เหมาะสำหรับการใช้งานในศูนย์บริการลูกค้า, การถอดเสียงการประชุม, และงานอื่นๆ ที่ต้องการความแม่นยำสูง จากการทดสอบบน FLEURS (Few-shot Learning Evaluation of Universal Representations of Speech) พบว่าโมเดลใหม่มีค่า Word Error Rate (WER) ต่ำกว่า Whisper v2, Whisper v3 และโมเดลชั้นนำอื่นๆ ในตลาดอย่างชัดเจน

ในส่วนของ Text-to-Speech OpenAI ได้เปิดตัว gpt-4o-mini-tts ที่มีความสามารถพิเศษในการรับคำสั่งไม่เพียงแค่ “พูดอะไร” แต่ยังสามารถระบุ “พูดอย่างไร” ได้ เช่น “พูดเหมือนพนักงานบริการลูกค้าที่เห็นอกเห็นใจ” หรือปรับโทนเสียงให้เหมาะกับการเล่านิทานก่อนนอน ทำให้นักพัฒนาสามารถสร้างประสบการณ์เสียงที่เหมาะสมกับกรณีการใช้งานที่หลากหลาย อย่างไรก็ตาม เสียงที่สร้างขึ้นจะเป็นเสียงสังเคราะห์ที่กำหนดไว้ล่วงหน้าเท่านั้น ซึ่ง OpenAI มีการตรวจสอบเพื่อให้มั่นใจว่าเสียงที่สร้างขึ้นตรงตามมาตรฐานที่กำหนด

โมเดลใหม่ทั้งหมดพัฒนาขึ้นบนพื้นฐานของสถาปัตยกรรม GPT-4o และ GPT-4o-mini โดยผ่านการ Pretrain ด้วยชุดข้อมูลเสียงที่มีคุณภาพสูง และใช้เทคนิค Reinforcement Learning เพื่อเพิ่มความแม่นยำ นักพัฒนาสามารถเริ่มใช้งานโมเดลเหล่านี้ได้แล้วผ่าน API และสำหรับผู้ที่ต้องการสร้างประสบการณ์แบบ Voice Agent สามารถใช้ Agents SDK ที่ OpenAI เปิดตัวเพื่อช่วยให้กระบวนการพัฒนาง่ายขึ้น บริษัทยังมีแผนที่จะพัฒนาโมเดลเสียงให้ดียิ่งขึ้น รวมถึงเตรียมลงทุนในโมเดลรูปแบบอื่นๆ เช่น วิดีโอ เพื่อให้นักพัฒนาสามารถสร้างประสบการณ์แบบ Multimodal Agent ได้ในอนาคต

ที่มา: https://openai.com/index/introducing-our-next-generation-audio-models/

About เด็กฝึกงาน TechTalkThai หมายเลข 1

นักเขียนผู้มีความสนใจใน Enterprise IT ด้วยประสบการณ์กว่า 10 ปีในไทย ปัจจุบันใช้ชีวิตอยู่ที่สหรัฐอเมริกา แต่ยังคงมุ่งมั่นในการแบ่งปันความรู้และประสบการณ์ด้านเทคโนโลยีให้กับทุกคน

Check Also

เลือก Cloud Infrastructure ที่เหมาะกับการใช้งาน AI ระดับองค์กร [PR]

เมื่อองค์กรเริ่มนำ AI เข้ามาเป็นส่วนสำคัญในการขับเคลื่อนธุรกิจ ความพร้อมของโครงสร้างพื้นฐานจึงกลายเป็นอีกหนึ่งปัจจัยที่ไม่อาจมองข้าม จากรายงานของ McKinsey & Company (2025) ระบุว่า สัดส่วนองค์กรที่นำ AI มาใช้ในการทำงานเพิ่มขึ้นเป็น 88 เปอร์เซ็นต์ …

HPE อัดยาแรง! แจกฟรี VM Essentials 1 ปี พร้อม Zerto 1 ดอลลาร์ ดึงลูกค้า VMware

HPE ใช้จังหวะที่ VMware ปรับขึ้นค่าไลเซนส์ นำเสนอสิทธิพิเศษให้ลูกค้าใช้งานระบบ VM Essentials ฟรี 1 ปีเต็ม พร้อมสิทธิ์ใช้งานซอฟต์แวร์ปกป้องข้อมูล Zerto ในราคาเพียง 1 ดอลลาร์ …