OpenAI เปิดตัวโมเดล Audio รุ่นใหม่สำหรับพัฒนา Voice Agent อัจฉริยะ

OpenAI ประกาศเปิดตัวโมเดล Audio รุ่นใหม่ที่มีประสิทธิภาพสูงทั้ง Speech-to-Text และ Text-to-Speech พร้อมให้นักพัฒนาทั่วโลกใช้งานผ่าน API เพื่อสร้าง Voice Agent ที่มีความสามารถในการโต้ตอบอย่างเป็นธรรมชาติ

Credit: OpenAI

โมเดล Speech-to-Text รุ่นใหม่ ได้แก่ gpt-4o-transcribe และ gpt-4o-mini-transcribe มีความแม่นยำในการถอดเสียงสูงกว่าโมเดล Whisper รุ่นก่อนหน้าอย่างมีนัยสำคัญ โดยเฉพาะในสภาพแวดล้อมที่มีเสียงรบกวน ผู้พูดที่มีสำเนียงหลากหลาย และความเร็วในการพูดที่แตกต่างกัน ทำให้เหมาะสำหรับการใช้งานในศูนย์บริการลูกค้า, การถอดเสียงการประชุม, และงานอื่นๆ ที่ต้องการความแม่นยำสูง จากการทดสอบบน FLEURS (Few-shot Learning Evaluation of Universal Representations of Speech) พบว่าโมเดลใหม่มีค่า Word Error Rate (WER) ต่ำกว่า Whisper v2, Whisper v3 และโมเดลชั้นนำอื่นๆ ในตลาดอย่างชัดเจน

ในส่วนของ Text-to-Speech OpenAI ได้เปิดตัว gpt-4o-mini-tts ที่มีความสามารถพิเศษในการรับคำสั่งไม่เพียงแค่ “พูดอะไร” แต่ยังสามารถระบุ “พูดอย่างไร” ได้ เช่น “พูดเหมือนพนักงานบริการลูกค้าที่เห็นอกเห็นใจ” หรือปรับโทนเสียงให้เหมาะกับการเล่านิทานก่อนนอน ทำให้นักพัฒนาสามารถสร้างประสบการณ์เสียงที่เหมาะสมกับกรณีการใช้งานที่หลากหลาย อย่างไรก็ตาม เสียงที่สร้างขึ้นจะเป็นเสียงสังเคราะห์ที่กำหนดไว้ล่วงหน้าเท่านั้น ซึ่ง OpenAI มีการตรวจสอบเพื่อให้มั่นใจว่าเสียงที่สร้างขึ้นตรงตามมาตรฐานที่กำหนด

โมเดลใหม่ทั้งหมดพัฒนาขึ้นบนพื้นฐานของสถาปัตยกรรม GPT-4o และ GPT-4o-mini โดยผ่านการ Pretrain ด้วยชุดข้อมูลเสียงที่มีคุณภาพสูง และใช้เทคนิค Reinforcement Learning เพื่อเพิ่มความแม่นยำ นักพัฒนาสามารถเริ่มใช้งานโมเดลเหล่านี้ได้แล้วผ่าน API และสำหรับผู้ที่ต้องการสร้างประสบการณ์แบบ Voice Agent สามารถใช้ Agents SDK ที่ OpenAI เปิดตัวเพื่อช่วยให้กระบวนการพัฒนาง่ายขึ้น บริษัทยังมีแผนที่จะพัฒนาโมเดลเสียงให้ดียิ่งขึ้น รวมถึงเตรียมลงทุนในโมเดลรูปแบบอื่นๆ เช่น วิดีโอ เพื่อให้นักพัฒนาสามารถสร้างประสบการณ์แบบ Multimodal Agent ได้ในอนาคต

ที่มา: https://openai.com/index/introducing-our-next-generation-audio-models/

About เด็กฝึกงาน TechTalkThai หมายเลข 1

นักเขียนผู้มีความสนใจใน Enterprise IT ด้วยประสบการณ์กว่า 10 ปีในไทย ปัจจุบันใช้ชีวิตอยู่ที่ Cupertino, CA แต่ยังคงมุ่งมั่นในการแบ่งปันความรู้และประสบการณ์ด้านเทคโนโลยีให้กับทุกคน

Check Also

Ubuntu 25.04 “Plucky Puffin” พร้อมให้ดาวน์โหลดแล้ว

ปลายสัปดาห์ที่ผ่านมา Canonical ได้ปล่อย Ubuntu 25.04 “Plucky Puffin” เวอร์ชัน Stable ออกมาอย่างเป็นทางการแล้ว ที่มาพร้อมกับ Linux 6.14 Kernel, GNOME …

AWS Security Incident Response พร้อมสนับสนุนการเชื่อมต่อกับ AWS Private Link แล้ว

AWS ได้ประกาศการเชื่อมโยง AWS Security Incident Response กับ AWS PrivateLink ได้แล้ว ทำให้ผู้ใช้งานสามารถปรับปรุงกระบวนการตอบสนองต่อเหตุการณ์ ให้สามารถรักษาข้อมูล Traffic ทั้งหมดไว้อยู่ภายใน Private …