OpenAI เปิดตัว gpt-realtime และฟีเจอร์ใหม่ Realtime API สำหรับสร้าง Voice Agent

OpenAI ประกาศเปิดให้บริการ Realtime API อย่างเป็นทางการพร้อมโมเดล gpt-realtime ที่ปรับปรุงใหม่ มาพร้อมฟีเจอร์รองรับ MCP server, การประมวลผลรูปภาพ และการเชื่อมต่อสายโทรศัพท์ผ่าน SIP

Credit: OpenAI

OpenAI ได้เปิดตัว Realtime API ให้บริการแบบ General Availability พร้อมกับโมเดล speech-to-speech รุ่นใหม่ gpt-realtime ที่พัฒนามาสำหรับการสร้าง voice agent ที่พร้อมใช้งานในระดับ production โดย API นี้รองรับการเชื่อมต่อกับ remote MCP servers, การรับ input เป็นรูปภาพ และการโทรศัพท์ผ่าน Session Initiation Protocol (SIP) ทำให้ voice agent มีความสามารถมากขึ้นผ่านการเข้าถึงเครื่องมือและบริบทเพิ่มเติม

โมเดล gpt-realtime แสดงให้เห็นถึงการพัฒนาที่สำคัญในหลายด้าน ทั้งการทำตามคำสั่งที่ซับซ้อน การเรียกใช้ function calling ที่แม่นยำ และการสร้างเสียงพูดที่ฟังดูเป็นธรรมชาติและมีการแสดงออกมากขึ้น โมเดลนี้สามารถตีความ system messages และ prompts จากนักพัฒนาได้ดีขึ้น ไม่ว่าจะเป็นการอ่านข้อความสำเร็จรูปในสายสนับสนุนลูกค้า การพูดซ้ำตัวเลขและตัวอักษร หรือการสลับภาษากลางประโยคได้อย่างราบรื่น นอกจากนี้ OpenAI ยังเปิดตัวเสียงใหม่ 2 เสียงคือ Cedar และ Marin ที่ให้บริการเฉพาะใน Realtime API เท่านั้น

ตั้งแต่เปิดตัว Realtime API ในรูปแบบ public beta เมื่อเดือนตุลาคมที่ผ่านมา นักพัฒนาหลายพันคนได้ใช้ API นี้และช่วยกำหนดทิศทางการปรับปรุงที่เปิดตัววันนี้ ซึ่งได้รับการปรับแต่งมาเพื่อความน่าเชื่อถือ latency ต่ำ และคุณภาพสูงสำหรับการใช้งาน voice agent ในระดับ production จากเดิมที่ต้องต่อโมเดลหลายตัวเข้าด้วยกันทั้ง speech-to-text และ text-to-speech Realtime API ประมวลผลและสร้างเสียงโดยตรงผ่านโมเดลเดียวและ API เดียว ช่วยลด latency รักษาความละเอียดในเสียงพูด และสร้างการตอบสนองที่เป็นธรรมชาติและมีการแสดงออกมากขึ้น

ฟีเจอร์ใหม่ที่สำคัญใน Realtime API ได้แก่การรองรับ remote MCP server ซึ่งนักพัฒนาสามารถเปิดใช้งานโดยส่ง URL ของ MCP server เข้าไปในการตั้งค่า session เมื่อเชื่อมต่อแล้ว API จะจัดการ tool calls อัตโนมัติโดยไม่ต้องเชื่อมต่อด้วยตนเอง ทำให้ง่ายต่อการขยายความสามารถของ agent ด้วยการชี้ session ไปยัง MCP server ต่างๆ การรองรับ image input ทำให้สามารถเพิ่มรูปภาพ ภาพถ่าย และ screenshot เข้าไปใน Realtime API session พร้อมกับเสียงหรือข้อความ ทำให้โมเดลสามารถอ้างอิงสิ่งที่ผู้ใช้งานเห็นจริงได้ และการรองรับ Session Initiation Protocol (SIP) ทำให้สามารถเชื่อมต่อแอปพลิเคชันกับระบบโทรศัพท์สาธารณะ ระบบ PBX โทรศัพท์ตั้งโต๊ะ และ SIP endpoints อื่นๆ ได้โดยตรง

ในด้านประสิทธิภาพ gpt-realtime ทำคะแนน 82.8% ใน Big Bench Audio evaluation ที่วัดความสามารถด้านการใช้เหตุผล เทียบกับโมเดลก่อนหน้าเมื่อเดือนธันวาคม 2024 ที่ทำได้ 65.6% และทำคะแนน 30.5% ใน MultiChallenge audio benchmark ที่วัดการทำตามคำสั่ง เพิ่มขึ้นจาก 20.6% ของโมเดลก่อนหน้า ส่วนด้าน function calling ทำคะแนน 66.5% ใน ComplexFuncBench audio eval เพิ่มขึ้นจาก 49.7% ที่โมเดลก่อนหน้าทำได้

OpenAI ได้ปรับลดราคาของ gpt-realtime ลง 20% เมื่อเทียบกับ gpt-4o-realtime-preview โดยคิดราคา 32 ดอลลาร์ต่อ 1 ล้าน audio input tokens (0.40 ดอลลาร์สำหรับ cached input tokens) และ 64 ดอลลาร์ต่อ 1 ล้าน audio output tokens นอกจากนี้ยังเพิ่มการควบคุม conversation context แบบละเอียดเพื่อให้นักพัฒนาตั้งค่าขีดจำกัด token อย่างชาญฉลาดและตัดการสนทนาหลายรอบในคราวเดียว ช่วยลดต้นทุนอย่างมีนัยสำคัญสำหรับ session ที่ยาวนาน

ที่มา: https://openai.com/index/introducing-gpt-realtime/

About เด็กฝึกงาน TechTalkThai หมายเลข 1

นักเขียนผู้มีความสนใจใน Enterprise IT ด้วยประสบการณ์กว่า 10 ปีในไทย ปัจจุบันใช้ชีวิตอยู่ที่สหรัฐอเมริกา แต่ยังคงมุ่งมั่นในการแบ่งปันความรู้และประสบการณ์ด้านเทคโนโลยีให้กับทุกคน

Check Also

Trump เลื่อนลงนามคำสั่งฝ่ายบริหารด้าน AI หลังเผชิญแรงต้านจากอุตสาหกรรมเทค

ประธานาธิบดี Donald Trump แห่งสหรัฐฯ ได้ตัดสินใจเลื่อนการลงนามในคำสั่งฝ่ายบริหารที่ออกแบบมาเพื่อควบคุมดูแลโมเดลปัญญาประดิษฐ์ขั้นสูง

Zscaler ซื้อ Symmetry Systems ขยายขีดความสามารถด้านความมั่นคงปลอดภัยเอเจนต์ AI

Zscaler กำลังเข้าซื้อกิจการ Symmetry Systems สตาร์ทอัพที่ได้รับการสนับสนุนจากเวนเจอร์แคปปิตอล ซึ่งเชี่ยวชาญด้านการช่วยองค์กรตรวจสอบและดูแลสินทรัพย์ข้อมูล