OpenAI เปิดตัว Realtime API รองรับการสนทนาแบบ speech-to-speech พร้อมฟีเจอร์ใหม่สำหรับเพิ่มประสิทธิภาพการพัฒนาแอปพลิเคชัน AI
OpenAI ได้เปิดตัวการอัปเดต API ที่สำคัญ 4 รายการในงาน DevDay 2024 โดยมีจุดเด่นอยู่ที่ Realtime API ซึ่งขณะนี้อยู่ในช่วง public beta ฟีเจอร์นี้ช่วยให้นักพัฒนาสามารถสร้างผู้ช่วยเสียงได้ง่ายขึ้น รองรับการสนทนาแบบ speech-to-speech มี preset เสียงมาให้พร้อมใช้งาน 6 แบบ ทำให้สามารถสร้างฟีเจอร์ที่คล้ายคลึงกับ ChatGPT Advanced Voice Mode (AVM) ในแอปพลิเคชันของตนเองได้
Realtime API ช่วยลดความซับซ้อนในกระบวนการสร้างผู้ช่วยเสียง (Voice assistant) โดยรวมขั้นตอนการรู้จำเสียงพูด, การประมวลผลข้อความ, และการแปลงข้อความเป็นเสียงพูดไว้ในการเรียก API เพียงครั้งเดียว นอกจากนี้ OpenAI ยังวางแผนที่จะเพิ่มความสามารถในการรับข้อมูลเสียงและส่งออกเสียงให้กับ Chat Completions API ในอีกไม่กี่สัปดาห์ข้างหน้า ทำให้นักพัฒนาสามารถป้อนข้อมูลเป็นข้อความหรือเสียง และรับการตอบสนองในรูปแบบใดก็ได้
OpenAI ยังได้เปิดตัวฟีเจอร์ “Model distillation” และ “prompt caching” เพื่อช่วยนักพัฒนาลดต้นทุนและเพิ่มประสิทธิภาพในการพัฒนาแอปพลิเคชัน AI โดย Model distillation ช่วยให้สามารถ fine-tune โมเดลขนาดเล็กและราคาถูกกว่า เช่น GPT-4o mini ด้วยผลลัพธ์จากโมเดลขั้นสูงอย่าง GPT-4o และ o1-preview ทำให้ได้ผลลัพธ์ที่เกี่ยวข้องและแม่นยำมากขึ้น ในขณะที่ยังคงใช้โมเดลที่มีต้นทุนต่ำกว่า
ส่วน prompt caching ช่วยเพิ่มความเร็วในการทำ inference โดยจดจำ prompt ที่ใช้บ่อย ทำให้ประหยัดต้นทุนได้ถึง 50% สำหรับ input tokens และเพิ่มความเร็วในการประมวลผลโดยการนำ input tokens ที่เคยเห็นมาใช้ซ้ำ ฟีเจอร์นี้คล้ายคลึงกับที่ Anthropic เคยเปิดตัวสำหรับ Claude API เมื่อเดือนสิงหาคมที่ผ่านมา
อีกหนึ่งฟีเจอร์ที่น่าสนใจคือ “Vision fine-tuning” ซึ่งช่วยให้นักพัฒนาสามารถปรับแต่ง GPT-4o ด้วยรูปภาพและข้อความที่กำหนดเอง ทำให้สามารถสอนโมเดล multimodal ของ GPT-4o ให้จดจำสิ่งต่างๆได้ OpenAI กล่าวว่าฟีเจอร์ใหม่นี้เปิดโอกาสให้พัฒนาฟังก์ชันการค้นหาด้วยภาพที่ดีขึ้น เช่น การตรวจจับวัตถุสำหรับรถขับเคลื่อนอัตโนมัติที่แม่นยำยิ่งขึ้น และอาจช่วยเพิ่มประสิทธิภาพในการวิเคราะห์ภาพถ่ายทางการแพทย์