OpenAI เปิดตัวโมเดล Audio รุ่นใหม่สำหรับพัฒนา Voice Agent อัจฉริยะ

OpenAI ประกาศเปิดตัวโมเดล Audio รุ่นใหม่ที่มีประสิทธิภาพสูงทั้ง Speech-to-Text และ Text-to-Speech พร้อมให้นักพัฒนาทั่วโลกใช้งานผ่าน API เพื่อสร้าง Voice Agent ที่มีความสามารถในการโต้ตอบอย่างเป็นธรรมชาติ

Credit: OpenAI

โมเดล Speech-to-Text รุ่นใหม่ ได้แก่ gpt-4o-transcribe และ gpt-4o-mini-transcribe มีความแม่นยำในการถอดเสียงสูงกว่าโมเดล Whisper รุ่นก่อนหน้าอย่างมีนัยสำคัญ โดยเฉพาะในสภาพแวดล้อมที่มีเสียงรบกวน ผู้พูดที่มีสำเนียงหลากหลาย และความเร็วในการพูดที่แตกต่างกัน ทำให้เหมาะสำหรับการใช้งานในศูนย์บริการลูกค้า, การถอดเสียงการประชุม, และงานอื่นๆ ที่ต้องการความแม่นยำสูง จากการทดสอบบน FLEURS (Few-shot Learning Evaluation of Universal Representations of Speech) พบว่าโมเดลใหม่มีค่า Word Error Rate (WER) ต่ำกว่า Whisper v2, Whisper v3 และโมเดลชั้นนำอื่นๆ ในตลาดอย่างชัดเจน

ในส่วนของ Text-to-Speech OpenAI ได้เปิดตัว gpt-4o-mini-tts ที่มีความสามารถพิเศษในการรับคำสั่งไม่เพียงแค่ “พูดอะไร” แต่ยังสามารถระบุ “พูดอย่างไร” ได้ เช่น “พูดเหมือนพนักงานบริการลูกค้าที่เห็นอกเห็นใจ” หรือปรับโทนเสียงให้เหมาะกับการเล่านิทานก่อนนอน ทำให้นักพัฒนาสามารถสร้างประสบการณ์เสียงที่เหมาะสมกับกรณีการใช้งานที่หลากหลาย อย่างไรก็ตาม เสียงที่สร้างขึ้นจะเป็นเสียงสังเคราะห์ที่กำหนดไว้ล่วงหน้าเท่านั้น ซึ่ง OpenAI มีการตรวจสอบเพื่อให้มั่นใจว่าเสียงที่สร้างขึ้นตรงตามมาตรฐานที่กำหนด

โมเดลใหม่ทั้งหมดพัฒนาขึ้นบนพื้นฐานของสถาปัตยกรรม GPT-4o และ GPT-4o-mini โดยผ่านการ Pretrain ด้วยชุดข้อมูลเสียงที่มีคุณภาพสูง และใช้เทคนิค Reinforcement Learning เพื่อเพิ่มความแม่นยำ นักพัฒนาสามารถเริ่มใช้งานโมเดลเหล่านี้ได้แล้วผ่าน API และสำหรับผู้ที่ต้องการสร้างประสบการณ์แบบ Voice Agent สามารถใช้ Agents SDK ที่ OpenAI เปิดตัวเพื่อช่วยให้กระบวนการพัฒนาง่ายขึ้น บริษัทยังมีแผนที่จะพัฒนาโมเดลเสียงให้ดียิ่งขึ้น รวมถึงเตรียมลงทุนในโมเดลรูปแบบอื่นๆ เช่น วิดีโอ เพื่อให้นักพัฒนาสามารถสร้างประสบการณ์แบบ Multimodal Agent ได้ในอนาคต

ที่มา: https://openai.com/index/introducing-our-next-generation-audio-models/

About เด็กฝึกงาน TechTalkThai หมายเลข 1

นักเขียนผู้มีความสนใจใน Enterprise IT ด้วยประสบการณ์กว่า 10 ปีในไทย ปัจจุบันใช้ชีวิตอยู่ที่สหรัฐอเมริกา แต่ยังคงมุ่งมั่นในการแบ่งปันความรู้และประสบการณ์ด้านเทคโนโลยีให้กับทุกคน

Check Also

Sonar เข้าซื้อกิจการ Gitar สตาร์ตอัป AI Code Review ยกระดับระบบตรวจสอบโค้ดด้วย Agentic Reasoning

Sonar ผู้ให้บริการแพลตฟอร์มตรวจสอบคุณภาพและความมั่นคงปลอดภัยของโค้ด ประกาศเข้าซื้อกิจการ Gitar สตาร์ตอัปผู้เชี่ยวชาญด้านระบบ AI-native Code Review การเข้าซื้อกิจการครั้งนี้มีเป้าหมายเพื่อผสานความสามารถด้านการคิดวิเคราะห์ของ Gitar เข้ากับเอนจินตรวจสอบโค้ดของ Sonar เพื่อสร้างความมั่นคงปลอดภัยที่รัดกุมยิ่งขึ้นสำหรับทีม DevOps ในยุคที่ …

Huawei เปิดตัวสถาปัตยกรรมชิปใหม่ แก้ปัญหาคว่ำบาตรและข้อจำกัด Moore’s Law

Huawei Technologies ยักษ์ใหญ่ด้านอิเล็กทรอนิกส์จากจีนได้เปิดตัวเฟรมเวิร์กการออกแบบชิปใหม่ ซึ่งบริษัทระบุว่าจะช่วยลดช่องว่างในอุตสาหกรรมเซมิคอนดักเตอร์กับผู้นำระดับโลกอย่าง TSMC และ Nvidia ได้