IBM Flashsystem

OpenAI เปิดตัว Realtime API ใหม่ รองรับการสนทนาแบบ speech-to-speech

OpenAI เปิดตัว Realtime API รองรับการสนทนาแบบ speech-to-speech พร้อมฟีเจอร์ใหม่สำหรับเพิ่มประสิทธิภาพการพัฒนาแอปพลิเคชัน AI

Credit: OpenAI

OpenAI ได้เปิดตัวการอัปเดต API ที่สำคัญ 4 รายการในงาน DevDay 2024 โดยมีจุดเด่นอยู่ที่ Realtime API ซึ่งขณะนี้อยู่ในช่วง public beta ฟีเจอร์นี้ช่วยให้นักพัฒนาสามารถสร้างผู้ช่วยเสียงได้ง่ายขึ้น รองรับการสนทนาแบบ speech-to-speech มี preset เสียงมาให้พร้อมใช้งาน 6 แบบ ทำให้สามารถสร้างฟีเจอร์ที่คล้ายคลึงกับ ChatGPT Advanced Voice Mode (AVM) ในแอปพลิเคชันของตนเองได้

Realtime API ช่วยลดความซับซ้อนในกระบวนการสร้างผู้ช่วยเสียง (Voice assistant) โดยรวมขั้นตอนการรู้จำเสียงพูด, การประมวลผลข้อความ, และการแปลงข้อความเป็นเสียงพูดไว้ในการเรียก API เพียงครั้งเดียว นอกจากนี้ OpenAI ยังวางแผนที่จะเพิ่มความสามารถในการรับข้อมูลเสียงและส่งออกเสียงให้กับ Chat Completions API ในอีกไม่กี่สัปดาห์ข้างหน้า ทำให้นักพัฒนาสามารถป้อนข้อมูลเป็นข้อความหรือเสียง และรับการตอบสนองในรูปแบบใดก็ได้

OpenAI ยังได้เปิดตัวฟีเจอร์ “Model distillation” และ “prompt caching” เพื่อช่วยนักพัฒนาลดต้นทุนและเพิ่มประสิทธิภาพในการพัฒนาแอปพลิเคชัน AI โดย Model distillation ช่วยให้สามารถ fine-tune โมเดลขนาดเล็กและราคาถูกกว่า เช่น GPT-4o mini ด้วยผลลัพธ์จากโมเดลขั้นสูงอย่าง GPT-4o และ o1-preview ทำให้ได้ผลลัพธ์ที่เกี่ยวข้องและแม่นยำมากขึ้น ในขณะที่ยังคงใช้โมเดลที่มีต้นทุนต่ำกว่า

ส่วน prompt caching ช่วยเพิ่มความเร็วในการทำ inference โดยจดจำ prompt ที่ใช้บ่อย ทำให้ประหยัดต้นทุนได้ถึง 50% สำหรับ input tokens และเพิ่มความเร็วในการประมวลผลโดยการนำ input tokens ที่เคยเห็นมาใช้ซ้ำ ฟีเจอร์นี้คล้ายคลึงกับที่ Anthropic เคยเปิดตัวสำหรับ Claude API เมื่อเดือนสิงหาคมที่ผ่านมา

อีกหนึ่งฟีเจอร์ที่น่าสนใจคือ “Vision fine-tuning” ซึ่งช่วยให้นักพัฒนาสามารถปรับแต่ง GPT-4o ด้วยรูปภาพและข้อความที่กำหนดเอง ทำให้สามารถสอนโมเดล multimodal ของ GPT-4o ให้จดจำสิ่งต่างๆได้ OpenAI กล่าวว่าฟีเจอร์ใหม่นี้เปิดโอกาสให้พัฒนาฟังก์ชันการค้นหาด้วยภาพที่ดีขึ้น เช่น การตรวจจับวัตถุสำหรับรถขับเคลื่อนอัตโนมัติที่แม่นยำยิ่งขึ้น และอาจช่วยเพิ่มประสิทธิภาพในการวิเคราะห์ภาพถ่ายทางการแพทย์

ที่มา: https://arstechnica.com/information-technology/2024/10/openai-unveils-easy-voice-assistant-creation-at-2024-developer-event/

About เด็กฝึกงาน TechTalkThai หมายเลข 1

นักเขียนผู้มีความสนใจใน Enterprise IT ด้วยประสบการณ์กว่า 10 ปีในไทย ปัจจุบันใช้ชีวิตอยู่ที่ Cupertino, CA แต่ยังคงมุ่งมั่นในการแบ่งปันความรู้และประสบการณ์ด้านเทคโนโลยีให้กับทุกคน

Check Also

Google เปิดตัว Gemini 2.5 Flash-Lite พร้อมปรับราคาโมเดลในซีรีส์ใหม่

Google เปิดตัว Gemini 2.5 Flash-Lite โมเดล LLM ระดับเริ่มต้นตัวใหม่ประมวลผลเร็วขึ้น ราคาถูกกว่า Pro ถึง 10 เท่า พร้อมใช้งาน mixture-of-experts …

VMware Cloud Foundation 9.0 เพิ่มความสามารถ Unified Interface และรองรับ AI Workloads

Broadcom เปิดตัว VMware Cloud Foundation 9.0 อัปเดตใหม่ลดเวลา setup ด้วย Quick Start App พร้อม Fleet Management …