OpenAI เปิดตัว Realtime API ใหม่ รองรับการสนทนาแบบ speech-to-speech

October 2, 2024 AI, Cloud and Systems, OpenAI, Products

OpenAI เปิดตัว Realtime API รองรับการสนทนาแบบ speech-to-speech พร้อมฟีเจอร์ใหม่สำหรับเพิ่มประสิทธิภาพการพัฒนาแอปพลิเคชัน AI

OpenAI ได้เปิดตัวการอัปเดต API ที่สำคัญ 4 รายการในงาน DevDay 2024 โดยมีจุดเด่นอยู่ที่ Realtime API ซึ่งขณะนี้อยู่ในช่วง public beta ฟีเจอร์นี้ช่วยให้นักพัฒนาสามารถสร้างผู้ช่วยเสียงได้ง่ายขึ้น รองรับการสนทนาแบบ speech-to-speech มี preset เสียงมาให้พร้อมใช้งาน 6 แบบ ทำให้สามารถสร้างฟีเจอร์ที่คล้ายคลึงกับ ChatGPT Advanced Voice Mode (AVM) ในแอปพลิเคชันของตนเองได้

Realtime API ช่วยลดความซับซ้อนในกระบวนการสร้างผู้ช่วยเสียง (Voice assistant) โดยรวมขั้นตอนการรู้จำเสียงพูด, การประมวลผลข้อความ, และการแปลงข้อความเป็นเสียงพูดไว้ในการเรียก API เพียงครั้งเดียว นอกจากนี้ OpenAI ยังวางแผนที่จะเพิ่มความสามารถในการรับข้อมูลเสียงและส่งออกเสียงให้กับ Chat Completions API ในอีกไม่กี่สัปดาห์ข้างหน้า ทำให้นักพัฒนาสามารถป้อนข้อมูลเป็นข้อความหรือเสียง และรับการตอบสนองในรูปแบบใดก็ได้

OpenAI ยังได้เปิดตัวฟีเจอร์ “Model distillation” และ “prompt caching” เพื่อช่วยนักพัฒนาลดต้นทุนและเพิ่มประสิทธิภาพในการพัฒนาแอปพลิเคชัน AI โดย Model distillation ช่วยให้สามารถ fine-tune โมเดลขนาดเล็กและราคาถูกกว่า เช่น GPT-4o mini ด้วยผลลัพธ์จากโมเดลขั้นสูงอย่าง GPT-4o และ o1-preview ทำให้ได้ผลลัพธ์ที่เกี่ยวข้องและแม่นยำมากขึ้น ในขณะที่ยังคงใช้โมเดลที่มีต้นทุนต่ำกว่า

ส่วน prompt caching ช่วยเพิ่มความเร็วในการทำ inference โดยจดจำ prompt ที่ใช้บ่อย ทำให้ประหยัดต้นทุนได้ถึง 50% สำหรับ input tokens และเพิ่มความเร็วในการประมวลผลโดยการนำ input tokens ที่เคยเห็นมาใช้ซ้ำ ฟีเจอร์นี้คล้ายคลึงกับที่ Anthropic เคยเปิดตัวสำหรับ Claude API เมื่อเดือนสิงหาคมที่ผ่านมา

อีกหนึ่งฟีเจอร์ที่น่าสนใจคือ “Vision fine-tuning” ซึ่งช่วยให้นักพัฒนาสามารถปรับแต่ง GPT-4o ด้วยรูปภาพและข้อความที่กำหนดเอง ทำให้สามารถสอนโมเดล multimodal ของ GPT-4o ให้จดจำสิ่งต่างๆได้ OpenAI กล่าวว่าฟีเจอร์ใหม่นี้เปิดโอกาสให้พัฒนาฟังก์ชันการค้นหาด้วยภาพที่ดีขึ้น เช่น การตรวจจับวัตถุสำหรับรถขับเคลื่อนอัตโนมัติที่แม่นยำยิ่งขึ้น และอาจช่วยเพิ่มประสิทธิภาพในการวิเคราะห์ภาพถ่ายทางการแพทย์

ที่มา: https://arstechnica.com/information-technology/2024/10/openai-unveils-easy-voice-assistant-creation-at-2024-developer-event/

กลุ่มผู้ผลิตชิปวอนทำเนียบขาวเลี่ยงแทรกแซงกลไกตลาดหน่วยความจำ

สมาคมอุตสาหกรรมชิปได้ออกมาเรียกร้องให้ทำเนียบขาวหลีกเลี่ยงการเปลี่ยนแปลงครั้งใหญ่ในแนวทางการกำกับดูแลตลาดชิปหน่วยความจำ

TechTalkThai ศูนย์รวมข่าว Enterprise IT ออนไลน์แห่งแรกในประเทศไทย

OpenAI เปิดตัว Realtime API ใหม่ รองรับการสนทนาแบบ speech-to-speech

About เด็กฝึกงาน TechTalkThai หมายเลข 1

Related Articles

Check Also

พบกับ Dell Pro เจนเนอเรชันใหม่ สร้างมาเพื่อ AI โดยเฉพาะ

กลุ่มผู้ผลิตชิปวอนทำเนียบขาวเลี่ยงแทรกแซงกลไกตลาดหน่วยความจำ

OpenAI เปิดตัว Realtime API ใหม่ รองรับการสนทนาแบบ speech-to-speech

Share this:

About เด็กฝึกงาน TechTalkThai หมายเลข 1

Related Articles

Check Also