OpenAI เปิดตัว Realtime API ใหม่ รองรับการสนทนาแบบ speech-to-speech

OpenAI เปิดตัว Realtime API รองรับการสนทนาแบบ speech-to-speech พร้อมฟีเจอร์ใหม่สำหรับเพิ่มประสิทธิภาพการพัฒนาแอปพลิเคชัน AI

Credit: OpenAI

OpenAI ได้เปิดตัวการอัปเดต API ที่สำคัญ 4 รายการในงาน DevDay 2024 โดยมีจุดเด่นอยู่ที่ Realtime API ซึ่งขณะนี้อยู่ในช่วง public beta ฟีเจอร์นี้ช่วยให้นักพัฒนาสามารถสร้างผู้ช่วยเสียงได้ง่ายขึ้น รองรับการสนทนาแบบ speech-to-speech มี preset เสียงมาให้พร้อมใช้งาน 6 แบบ ทำให้สามารถสร้างฟีเจอร์ที่คล้ายคลึงกับ ChatGPT Advanced Voice Mode (AVM) ในแอปพลิเคชันของตนเองได้

Realtime API ช่วยลดความซับซ้อนในกระบวนการสร้างผู้ช่วยเสียง (Voice assistant) โดยรวมขั้นตอนการรู้จำเสียงพูด, การประมวลผลข้อความ, และการแปลงข้อความเป็นเสียงพูดไว้ในการเรียก API เพียงครั้งเดียว นอกจากนี้ OpenAI ยังวางแผนที่จะเพิ่มความสามารถในการรับข้อมูลเสียงและส่งออกเสียงให้กับ Chat Completions API ในอีกไม่กี่สัปดาห์ข้างหน้า ทำให้นักพัฒนาสามารถป้อนข้อมูลเป็นข้อความหรือเสียง และรับการตอบสนองในรูปแบบใดก็ได้

OpenAI ยังได้เปิดตัวฟีเจอร์ “Model distillation” และ “prompt caching” เพื่อช่วยนักพัฒนาลดต้นทุนและเพิ่มประสิทธิภาพในการพัฒนาแอปพลิเคชัน AI โดย Model distillation ช่วยให้สามารถ fine-tune โมเดลขนาดเล็กและราคาถูกกว่า เช่น GPT-4o mini ด้วยผลลัพธ์จากโมเดลขั้นสูงอย่าง GPT-4o และ o1-preview ทำให้ได้ผลลัพธ์ที่เกี่ยวข้องและแม่นยำมากขึ้น ในขณะที่ยังคงใช้โมเดลที่มีต้นทุนต่ำกว่า

ส่วน prompt caching ช่วยเพิ่มความเร็วในการทำ inference โดยจดจำ prompt ที่ใช้บ่อย ทำให้ประหยัดต้นทุนได้ถึง 50% สำหรับ input tokens และเพิ่มความเร็วในการประมวลผลโดยการนำ input tokens ที่เคยเห็นมาใช้ซ้ำ ฟีเจอร์นี้คล้ายคลึงกับที่ Anthropic เคยเปิดตัวสำหรับ Claude API เมื่อเดือนสิงหาคมที่ผ่านมา

อีกหนึ่งฟีเจอร์ที่น่าสนใจคือ “Vision fine-tuning” ซึ่งช่วยให้นักพัฒนาสามารถปรับแต่ง GPT-4o ด้วยรูปภาพและข้อความที่กำหนดเอง ทำให้สามารถสอนโมเดล multimodal ของ GPT-4o ให้จดจำสิ่งต่างๆได้ OpenAI กล่าวว่าฟีเจอร์ใหม่นี้เปิดโอกาสให้พัฒนาฟังก์ชันการค้นหาด้วยภาพที่ดีขึ้น เช่น การตรวจจับวัตถุสำหรับรถขับเคลื่อนอัตโนมัติที่แม่นยำยิ่งขึ้น และอาจช่วยเพิ่มประสิทธิภาพในการวิเคราะห์ภาพถ่ายทางการแพทย์

ที่มา: https://arstechnica.com/information-technology/2024/10/openai-unveils-easy-voice-assistant-creation-at-2024-developer-event/

About เด็กฝึกงาน TechTalkThai หมายเลข 1

นักเขียนผู้มีความสนใจใน Enterprise IT ด้วยประสบการณ์กว่า 10 ปีในไทย ปัจจุบันใช้ชีวิตอยู่ที่ Cupertino, CA แต่ยังคงมุ่งมั่นในการแบ่งปันความรู้และประสบการณ์ด้านเทคโนโลยีให้กับทุกคน

Check Also

บริษัทซอฟต์แวร์คลาวด์ ServiceTitan ประกาศ IPO หวังระดมทุนสูงสุด 502 ล้านดอลลาร์

ServiceTitan ผู้ให้บริการซอฟต์แวร์คลาวด์สำหรับธุรกิจ ประกาศเสนอขายหุ้นต่อสาธารณะครั้งแรก (IPO) โดยตั้งเป้าระดมทุนสูงสุดถึง 502 ล้านดอลลาร์สหรัฐ จากการเสนอขายหุ้นจำนวน 8.8 ล้านหุ้น ในช่วงราคาหุ้นละ 52 ถึง 57 ดอลลาร์

Tuskira เปิดตัวพร้อมทุน 28.5 ล้านดอลลาร์ ยกระดับความมั่นคงปลอดภัยไซเบอร์ด้วย AI

สตาร์ทอัพด้านการตรวจจับภัยคุกคาม Tuskira เปิดตัวพร้อมระดมทุน 28.5 ล้านดอลลาร์จากกลุ่มนักลงทุนที่นำโดย Intel Capital และ SYN Ventures มุ่งเร่งนวัตกรรม AI การผสานระบบ และยกระดับการรักษาความมั่นคงปลอดภัยไซเบอร์ขององค์กรด้วยกลยุทธ์เชิงรุกที่รวมเครื่องมือเข้าด้วยกันและลดความเสี่ยงแบบเรียลไทม์