OpenAI เปิดตัวโมเดล Audio รุ่นใหม่สำหรับพัฒนา Voice Agent อัจฉริยะ

March 22, 2025 AI, Cloud and Systems, OpenAI, Products

OpenAI ประกาศเปิดตัวโมเดล Audio รุ่นใหม่ที่มีประสิทธิภาพสูงทั้ง Speech-to-Text และ Text-to-Speech พร้อมให้นักพัฒนาทั่วโลกใช้งานผ่าน API เพื่อสร้าง Voice Agent ที่มีความสามารถในการโต้ตอบอย่างเป็นธรรมชาติ

โมเดล Speech-to-Text รุ่นใหม่ ได้แก่ gpt-4o-transcribe และ gpt-4o-mini-transcribe มีความแม่นยำในการถอดเสียงสูงกว่าโมเดล Whisper รุ่นก่อนหน้าอย่างมีนัยสำคัญ โดยเฉพาะในสภาพแวดล้อมที่มีเสียงรบกวน ผู้พูดที่มีสำเนียงหลากหลาย และความเร็วในการพูดที่แตกต่างกัน ทำให้เหมาะสำหรับการใช้งานในศูนย์บริการลูกค้า, การถอดเสียงการประชุม, และงานอื่นๆ ที่ต้องการความแม่นยำสูง จากการทดสอบบน FLEURS (Few-shot Learning Evaluation of Universal Representations of Speech) พบว่าโมเดลใหม่มีค่า Word Error Rate (WER) ต่ำกว่า Whisper v2, Whisper v3 และโมเดลชั้นนำอื่นๆ ในตลาดอย่างชัดเจน

ในส่วนของ Text-to-Speech OpenAI ได้เปิดตัว gpt-4o-mini-tts ที่มีความสามารถพิเศษในการรับคำสั่งไม่เพียงแค่ “พูดอะไร” แต่ยังสามารถระบุ “พูดอย่างไร” ได้ เช่น “พูดเหมือนพนักงานบริการลูกค้าที่เห็นอกเห็นใจ” หรือปรับโทนเสียงให้เหมาะกับการเล่านิทานก่อนนอน ทำให้นักพัฒนาสามารถสร้างประสบการณ์เสียงที่เหมาะสมกับกรณีการใช้งานที่หลากหลาย อย่างไรก็ตาม เสียงที่สร้างขึ้นจะเป็นเสียงสังเคราะห์ที่กำหนดไว้ล่วงหน้าเท่านั้น ซึ่ง OpenAI มีการตรวจสอบเพื่อให้มั่นใจว่าเสียงที่สร้างขึ้นตรงตามมาตรฐานที่กำหนด

โมเดลใหม่ทั้งหมดพัฒนาขึ้นบนพื้นฐานของสถาปัตยกรรม GPT-4o และ GPT-4o-mini โดยผ่านการ Pretrain ด้วยชุดข้อมูลเสียงที่มีคุณภาพสูง และใช้เทคนิค Reinforcement Learning เพื่อเพิ่มความแม่นยำ นักพัฒนาสามารถเริ่มใช้งานโมเดลเหล่านี้ได้แล้วผ่าน API และสำหรับผู้ที่ต้องการสร้างประสบการณ์แบบ Voice Agent สามารถใช้ Agents SDK ที่ OpenAI เปิดตัวเพื่อช่วยให้กระบวนการพัฒนาง่ายขึ้น บริษัทยังมีแผนที่จะพัฒนาโมเดลเสียงให้ดียิ่งขึ้น รวมถึงเตรียมลงทุนในโมเดลรูปแบบอื่นๆ เช่น วิดีโอ เพื่อให้นักพัฒนาสามารถสร้างประสบการณ์แบบ Multimodal Agent ได้ในอนาคต

ที่มา: https://openai.com/index/introducing-our-next-generation-audio-models/

Tags ai api audio models customer service gpt-4o machine learning openai reinforcement learning speech-to-text text-to-speech transcription Voice Agent voice assistant whisper

About เด็กฝึกงาน TechTalkThai หมายเลข 1

นักเขียนผู้มีความสนใจใน Enterprise IT ด้วยประสบการณ์กว่า 10 ปีในไทย ปัจจุบันใช้ชีวิตอยู่ที่สหรัฐอเมริกา แต่ยังคงมุ่งมั่นในการแบ่งปันความรู้และประสบการณ์ด้านเทคโนโลยีให้กับทุกคน

Check Also

ขอเชิญเข้าร่วมงานสัมมนา Confluent – Data Streaming World Tour Bangkok : AI Ships when Data Streams [16 ก.ย. 2026 ณ St Regis Bangkok]

Confluent ขอเชิญ CIO, CTO, CDO, CAIO, AI Engineer, Data Engineer, Data Scientist, Cloud Engineer, Software Engineer และผู้ที่สนใจทุกท่าน เข้าร่วมงานสัมมนา “Confluent - Data Streaming World Tour Bangkok : AI Ships when Data Streams” ณ โรงแรม The St. Regis Bangkok ในวันพฤหัสบดีที่ 16 กรกฎาคม 2026

ยกระดับการทำงานและการเรียนรู้ ด้วย “ZTE Smart Conference” เทคโนโลยี AI อัจฉริยะ ที่ใครก็ใช้งานได้ง่ายๆ [Guest Post]

ในยุคที่การทำงานแบบ Hybrid และการเรียนรู้แบบผสมผสาน (Hybrid Learning) กลายเป็นเรื่องปกติ “ห้องประชุม” และ “ห้องเรียน” ไม่ได้มีไว้แค่สำหรับการรวมตัวกันอีกต่อไป แต่ต้องเป็นพื้นที่ที่เชื่อมโยงคนทั้งที่อยู่ในห้องและคนที่อยู่ห่างไกลให้รู้สึกเหมือนอยู่ด้วยกัน การมีระบบ Conference ที่มีประสิทธิภาพจึงเป็นสิ่งจำเป็น

TechTalkThai ศูนย์รวมข่าว Enterprise IT ออนไลน์แห่งแรกในประเทศไทย

OpenAI เปิดตัวโมเดล Audio รุ่นใหม่สำหรับพัฒนา Voice Agent อัจฉริยะ

About เด็กฝึกงาน TechTalkThai หมายเลข 1

Related Articles

Check Also

ขอเชิญเข้าร่วมงานสัมมนา Confluent – Data Streaming World Tour Bangkok : AI Ships when Data Streams [16 ก.ย. 2026 ณ St Regis Bangkok]

ยกระดับการทำงานและการเรียนรู้ ด้วย “ZTE Smart Conference” เทคโนโลยี AI อัจฉริยะ ที่ใครก็ใช้งานได้ง่ายๆ [Guest Post]

OpenAI เปิดตัวโมเดล Audio รุ่นใหม่สำหรับพัฒนา Voice Agent อัจฉริยะ

Share this:

About เด็กฝึกงาน TechTalkThai หมายเลข 1

Related Articles

Check Also