OpenAI เปิดตัว Realtime API ใหม่ รองรับการสนทนาแบบ speech-to-speech

OpenAI เปิดตัว Realtime API รองรับการสนทนาแบบ speech-to-speech พร้อมฟีเจอร์ใหม่สำหรับเพิ่มประสิทธิภาพการพัฒนาแอปพลิเคชัน AI

Credit: OpenAI

OpenAI ได้เปิดตัวการอัปเดต API ที่สำคัญ 4 รายการในงาน DevDay 2024 โดยมีจุดเด่นอยู่ที่ Realtime API ซึ่งขณะนี้อยู่ในช่วง public beta ฟีเจอร์นี้ช่วยให้นักพัฒนาสามารถสร้างผู้ช่วยเสียงได้ง่ายขึ้น รองรับการสนทนาแบบ speech-to-speech มี preset เสียงมาให้พร้อมใช้งาน 6 แบบ ทำให้สามารถสร้างฟีเจอร์ที่คล้ายคลึงกับ ChatGPT Advanced Voice Mode (AVM) ในแอปพลิเคชันของตนเองได้

Realtime API ช่วยลดความซับซ้อนในกระบวนการสร้างผู้ช่วยเสียง (Voice assistant) โดยรวมขั้นตอนการรู้จำเสียงพูด, การประมวลผลข้อความ, และการแปลงข้อความเป็นเสียงพูดไว้ในการเรียก API เพียงครั้งเดียว นอกจากนี้ OpenAI ยังวางแผนที่จะเพิ่มความสามารถในการรับข้อมูลเสียงและส่งออกเสียงให้กับ Chat Completions API ในอีกไม่กี่สัปดาห์ข้างหน้า ทำให้นักพัฒนาสามารถป้อนข้อมูลเป็นข้อความหรือเสียง และรับการตอบสนองในรูปแบบใดก็ได้

OpenAI ยังได้เปิดตัวฟีเจอร์ “Model distillation” และ “prompt caching” เพื่อช่วยนักพัฒนาลดต้นทุนและเพิ่มประสิทธิภาพในการพัฒนาแอปพลิเคชัน AI โดย Model distillation ช่วยให้สามารถ fine-tune โมเดลขนาดเล็กและราคาถูกกว่า เช่น GPT-4o mini ด้วยผลลัพธ์จากโมเดลขั้นสูงอย่าง GPT-4o และ o1-preview ทำให้ได้ผลลัพธ์ที่เกี่ยวข้องและแม่นยำมากขึ้น ในขณะที่ยังคงใช้โมเดลที่มีต้นทุนต่ำกว่า

ส่วน prompt caching ช่วยเพิ่มความเร็วในการทำ inference โดยจดจำ prompt ที่ใช้บ่อย ทำให้ประหยัดต้นทุนได้ถึง 50% สำหรับ input tokens และเพิ่มความเร็วในการประมวลผลโดยการนำ input tokens ที่เคยเห็นมาใช้ซ้ำ ฟีเจอร์นี้คล้ายคลึงกับที่ Anthropic เคยเปิดตัวสำหรับ Claude API เมื่อเดือนสิงหาคมที่ผ่านมา

อีกหนึ่งฟีเจอร์ที่น่าสนใจคือ “Vision fine-tuning” ซึ่งช่วยให้นักพัฒนาสามารถปรับแต่ง GPT-4o ด้วยรูปภาพและข้อความที่กำหนดเอง ทำให้สามารถสอนโมเดล multimodal ของ GPT-4o ให้จดจำสิ่งต่างๆได้ OpenAI กล่าวว่าฟีเจอร์ใหม่นี้เปิดโอกาสให้พัฒนาฟังก์ชันการค้นหาด้วยภาพที่ดีขึ้น เช่น การตรวจจับวัตถุสำหรับรถขับเคลื่อนอัตโนมัติที่แม่นยำยิ่งขึ้น และอาจช่วยเพิ่มประสิทธิภาพในการวิเคราะห์ภาพถ่ายทางการแพทย์

ที่มา: https://arstechnica.com/information-technology/2024/10/openai-unveils-easy-voice-assistant-creation-at-2024-developer-event/

About เด็กฝึกงาน TechTalkThai หมายเลข 1

นักเขียนผู้มีความสนใจใน Enterprise IT ด้วยประสบการณ์กว่า 10 ปีในไทย ปัจจุบันใช้ชีวิตอยู่ที่สหรัฐอเมริกา แต่ยังคงมุ่งมั่นในการแบ่งปันความรู้และประสบการณ์ด้านเทคโนโลยีให้กับทุกคน

Check Also

Sonar เข้าซื้อกิจการ Gitar สตาร์ตอัป AI Code Review ยกระดับระบบตรวจสอบโค้ดด้วย Agentic Reasoning

Sonar ผู้ให้บริการแพลตฟอร์มตรวจสอบคุณภาพและความมั่นคงปลอดภัยของโค้ด ประกาศเข้าซื้อกิจการ Gitar สตาร์ตอัปผู้เชี่ยวชาญด้านระบบ AI-native Code Review การเข้าซื้อกิจการครั้งนี้มีเป้าหมายเพื่อผสานความสามารถด้านการคิดวิเคราะห์ของ Gitar เข้ากับเอนจินตรวจสอบโค้ดของ Sonar เพื่อสร้างความมั่นคงปลอดภัยที่รัดกุมยิ่งขึ้นสำหรับทีม DevOps ในยุคที่ …

Huawei เปิดตัวสถาปัตยกรรมชิปใหม่ แก้ปัญหาคว่ำบาตรและข้อจำกัด Moore’s Law

Huawei Technologies ยักษ์ใหญ่ด้านอิเล็กทรอนิกส์จากจีนได้เปิดตัวเฟรมเวิร์กการออกแบบชิปใหม่ ซึ่งบริษัทระบุว่าจะช่วยลดช่องว่างในอุตสาหกรรมเซมิคอนดักเตอร์กับผู้นำระดับโลกอย่าง TSMC และ Nvidia ได้