หน่วยงานปัญญาประดิษฐ์ DeepMind ของ Google ได้เปิดตัวโมเดลแปลงข้อความเป็นเสียงพูดรุ่นใหม่ภายใต้ชื่อ Gemini 3.1 Flash TTS

บริษัทระบุในบล็อกโพสต์ว่า โมเดลนี้ไม่เหมือนกับรุ่นก่อนหน้าที่มีเสียงคล้ายหุ่นยนต์ เพราะช่วยให้ผู้ใช้สามารถกำหนดสไตล์การใช้เสียง การถ่ายทอด และจังหวะการตอบโต้ของแชทบอทผ่านคำสั่งแบบข้อความได้ วิดีโอที่โพสต์บน X แสดงให้เห็นว่า Gemini 3.1 Flash TTS มีตัวเลือกขั้นสูงสำหรับการควบคุมเสียงที่โมเดลส่งออกมา พร้อมการควบคุมที่สามารถปรับเปลี่ยนการเน้นเสียงและโทนเสียงได้ โดยมีตัวเลือกต่าง ๆ เช่น กระตือรือร้น ประหลาดใจในเชิงบวก และให้ข้อมูล
นอกจากนี้ โมเดลยังอนุญาตให้ผู้ใช้เลือกสำเนียงท้องถิ่นที่แตกต่างกันของภาษาหลักหลายภาษา โดยภาษาอังกฤษมีตัวเลือกมากมายให้เลือก รวมถึงสำเนียงอเมริกันแบบ “Valley” และ “Southern” รวมถึงสำเนียงบริติชอีกหลายรูปแบบ เช่น “Brixton” และ “RP” นอกจากนี้ยังมีสำเนียงอื่น ๆ เช่น “Transatlantic” อีกด้วย
อีกหนึ่งฟีเจอร์คือการควบคุมในระดับผู้กำกับของ Gemini 3.1 Flash TTS ซึ่งช่วยให้ผู้ใช้ปรับสไตล์การพูดและจังหวะของโมเดลได้ ทั้งยังมีเทมเพลตสำหรับรูปแบบต่าง ๆ ที่ผู้ใช้สามารถเลือกได้ เช่น บทสนทนาพอดแคสต์ ผู้บรรยายหนังสือเสียง ติวเตอร์สอนภาษา ผู้ช่วยเสียง ไกด์ด้านสุขภาพ ผู้ประกาศข่าว และสไตล์การสนับสนุนในรูปแบบซัพพอร์ตเอเจนต์ โดย Google กล่าวว่าผู้ใช้จะสามารถ “กำหนดเวที” ได้ด้วยการระบุสภาพแวดล้อมและให้คำแนะนำในการสนทนาที่เฉพาะเจาะจง และสามารถส่งออกการตั้งค่าเหล่านี้เป็นโค้ด API ได้
“บริบทการสร้างโลกนี้ช่วยให้ตัวละครยังคง ‘อยู่ในบทบาท’ และโต้ตอบกันอย่างเป็นธรรมชาติผ่านการสนทนาหลายรอบ” บริษัทระบุในบล็อกโพสต์ “เมื่อการแสดงได้รับการปรับแต่งจนสมบูรณ์แบบแล้ว พารามิเตอร์ที่แม่นยำเหล่านี้สามารถส่งออกเป็นโค้ด Gemini API เพื่อให้มั่นใจว่าจะมีเสียงที่สม่ำเสมอและจดจำได้ในโครงการและแพลตฟอร์มต่าง ๆ”
Google กล่าวว่าเป้าหมายของ Gemini 3.1 Flash TTS คือการมอบประสบการณ์การพูดที่ฟังดูเป็นธรรมชาติมากขึ้น และกำลังดำเนินการในภาษาต่าง ๆ มากกว่า 70 ภาษา รวมถึงภาษาญี่ปุ่น ภาษาฮินดี และภาษาเยอรมัน โมเดลนี้ยังมีฟีเจอร์ลายน้ำ SynthID ในทุกผลลัพธ์ที่สร้างขึ้น เพื่อให้ง่ายต่อการตรวจจับเนื้อหา
ในตารางอันดับ Artificial Analysis TTS ซึ่งเป็นเกณฑ์มาตรฐานที่รวบรวมความพึงพอใจของมนุษย์แบบ Blind Test หลายพันรายการ Gemini 3.1 Flash TTS ครองอันดับสองโดยรวมด้วยคะแนน 1211 ซึ่งแซงหน้าโมเดลข้อความเป็นคำพูดที่เป็นที่นิยมอื่น ๆ อีกมากมาย
ปัจจุบันนักพัฒนาสามารถเข้าถึงโมเดลนี้ได้ผ่าน Gemini API และ Google AI Studio ส่วนระดับองค์กรสามารถเข้าถึงได้ผ่านแพลตฟอร์ม Vertex AI สำหรับบุคคลทั่วไปสามารถทดลองใช้งานได้ที่ Google Vids
ที่มา: https://siliconangle.com/2026/04/15/googles-gemini-3-1-flash-tts-offers-unparalleled-control-ai-voices/
TechTalkThai ศูนย์รวมข่าว Enterprise IT ออนไลน์แห่งแรกในประเทศไทย






