OpenAI เปิดตัว gpt-realtime และฟีเจอร์ใหม่ Realtime API สำหรับสร้าง Voice Agent

August 29, 2025 AI, Cloud and Systems, OpenAI, Products

OpenAI ประกาศเปิดให้บริการ Realtime API อย่างเป็นทางการพร้อมโมเดล gpt-realtime ที่ปรับปรุงใหม่ มาพร้อมฟีเจอร์รองรับ MCP server, การประมวลผลรูปภาพ และการเชื่อมต่อสายโทรศัพท์ผ่าน SIP

OpenAI ได้เปิดตัว Realtime API ให้บริการแบบ General Availability พร้อมกับโมเดล speech-to-speech รุ่นใหม่ gpt-realtime ที่พัฒนามาสำหรับการสร้าง voice agent ที่พร้อมใช้งานในระดับ production โดย API นี้รองรับการเชื่อมต่อกับ remote MCP servers, การรับ input เป็นรูปภาพ และการโทรศัพท์ผ่าน Session Initiation Protocol (SIP) ทำให้ voice agent มีความสามารถมากขึ้นผ่านการเข้าถึงเครื่องมือและบริบทเพิ่มเติม

โมเดล gpt-realtime แสดงให้เห็นถึงการพัฒนาที่สำคัญในหลายด้าน ทั้งการทำตามคำสั่งที่ซับซ้อน การเรียกใช้ function calling ที่แม่นยำ และการสร้างเสียงพูดที่ฟังดูเป็นธรรมชาติและมีการแสดงออกมากขึ้น โมเดลนี้สามารถตีความ system messages และ prompts จากนักพัฒนาได้ดีขึ้น ไม่ว่าจะเป็นการอ่านข้อความสำเร็จรูปในสายสนับสนุนลูกค้า การพูดซ้ำตัวเลขและตัวอักษร หรือการสลับภาษากลางประโยคได้อย่างราบรื่น นอกจากนี้ OpenAI ยังเปิดตัวเสียงใหม่ 2 เสียงคือ Cedar และ Marin ที่ให้บริการเฉพาะใน Realtime API เท่านั้น

ตั้งแต่เปิดตัว Realtime API ในรูปแบบ public beta เมื่อเดือนตุลาคมที่ผ่านมา นักพัฒนาหลายพันคนได้ใช้ API นี้และช่วยกำหนดทิศทางการปรับปรุงที่เปิดตัววันนี้ ซึ่งได้รับการปรับแต่งมาเพื่อความน่าเชื่อถือ latency ต่ำ และคุณภาพสูงสำหรับการใช้งาน voice agent ในระดับ production จากเดิมที่ต้องต่อโมเดลหลายตัวเข้าด้วยกันทั้ง speech-to-text และ text-to-speech Realtime API ประมวลผลและสร้างเสียงโดยตรงผ่านโมเดลเดียวและ API เดียว ช่วยลด latency รักษาความละเอียดในเสียงพูด และสร้างการตอบสนองที่เป็นธรรมชาติและมีการแสดงออกมากขึ้น

ฟีเจอร์ใหม่ที่สำคัญใน Realtime API ได้แก่การรองรับ remote MCP server ซึ่งนักพัฒนาสามารถเปิดใช้งานโดยส่ง URL ของ MCP server เข้าไปในการตั้งค่า session เมื่อเชื่อมต่อแล้ว API จะจัดการ tool calls อัตโนมัติโดยไม่ต้องเชื่อมต่อด้วยตนเอง ทำให้ง่ายต่อการขยายความสามารถของ agent ด้วยการชี้ session ไปยัง MCP server ต่างๆ การรองรับ image input ทำให้สามารถเพิ่มรูปภาพ ภาพถ่าย และ screenshot เข้าไปใน Realtime API session พร้อมกับเสียงหรือข้อความ ทำให้โมเดลสามารถอ้างอิงสิ่งที่ผู้ใช้งานเห็นจริงได้ และการรองรับ Session Initiation Protocol (SIP) ทำให้สามารถเชื่อมต่อแอปพลิเคชันกับระบบโทรศัพท์สาธารณะ ระบบ PBX โทรศัพท์ตั้งโต๊ะ และ SIP endpoints อื่นๆ ได้โดยตรง

ในด้านประสิทธิภาพ gpt-realtime ทำคะแนน 82.8% ใน Big Bench Audio evaluation ที่วัดความสามารถด้านการใช้เหตุผล เทียบกับโมเดลก่อนหน้าเมื่อเดือนธันวาคม 2024 ที่ทำได้ 65.6% และทำคะแนน 30.5% ใน MultiChallenge audio benchmark ที่วัดการทำตามคำสั่ง เพิ่มขึ้นจาก 20.6% ของโมเดลก่อนหน้า ส่วนด้าน function calling ทำคะแนน 66.5% ใน ComplexFuncBench audio eval เพิ่มขึ้นจาก 49.7% ที่โมเดลก่อนหน้าทำได้

OpenAI ได้ปรับลดราคาของ gpt-realtime ลง 20% เมื่อเทียบกับ gpt-4o-realtime-preview โดยคิดราคา 32 ดอลลาร์ต่อ 1 ล้าน audio input tokens (0.40 ดอลลาร์สำหรับ cached input tokens) และ 64 ดอลลาร์ต่อ 1 ล้าน audio output tokens นอกจากนี้ยังเพิ่มการควบคุม conversation context แบบละเอียดเพื่อให้นักพัฒนาตั้งค่าขีดจำกัด token อย่างชาญฉลาดและตัดการสนทนาหลายรอบในคราวเดียว ช่วยลดต้นทุนอย่างมีนัยสำคัญสำหรับ session ที่ยาวนาน

ที่มา: https://openai.com/index/introducing-gpt-realtime/

Anthropic เปิดตัว Claude Opus 5 ชูความฉลาดใกล้ระดับ Fable 5 ในราคาครึ่งเดียว

Anthropic เปิดตัว Claude Opus 5 โมเดล AI ที่ให้ความสามารถใกล้เคียงระดับ frontier ของ Claude Fable 5 ในราคาครึ่งเดียว โดยยังคิดค่าบริการเท่ากับ …

Dell Pro Precision x Dell Pro AI Studio: จุดเริ่มต้น AI ที่ใช่สำหรับทุกองค์กร [Guest Post]

ในยุคที่ AI กลายเป็นหัวใจของการขับเคลื่อนธุรกิจ องค์กรทุกขนาดต่างมองหา “จุดเริ่มต้น” ที่แข็งแรงพอจะรองรับงานตั้งแต่การออกแบบ วิเคราะห์ข้อมูล ไปจนถึงการพัฒนาโมเดล AI ของตัวเอง Dell Pro Precision คือคำตอบ workstations …

TechTalkThai ศูนย์รวมข่าว Enterprise IT ออนไลน์แห่งแรกในประเทศไทย

OpenAI เปิดตัว gpt-realtime และฟีเจอร์ใหม่ Realtime API สำหรับสร้าง Voice Agent

About เด็กฝึกงาน TechTalkThai หมายเลข 1

Related Articles

Check Also

Anthropic เปิดตัว Claude Opus 5 ชูความฉลาดใกล้ระดับ Fable 5 ในราคาครึ่งเดียว

Dell Pro Precision x Dell Pro AI Studio: จุดเริ่มต้น AI ที่ใช่สำหรับทุกองค์กร [Guest Post]

OpenAI เปิดตัว gpt-realtime และฟีเจอร์ใหม่ Realtime API สำหรับสร้าง Voice Agent

Share this:

About เด็กฝึกงาน TechTalkThai หมายเลข 1

Related Articles

Check Also