Gemini 3.1 Flash TTS ใหม่ของ Google มอบการควบคุมเสียง AI เหนือชั้น

หน่วยงานปัญญาประดิษฐ์ DeepMind ของ Google ได้เปิดตัวโมเดลแปลงข้อความเป็นเสียงพูดรุ่นใหม่ภายใต้ชื่อ Gemini 3.1 Flash TTS

Credit: Google

บริษัทระบุในบล็อกโพสต์ว่า โมเดลนี้ไม่เหมือนกับรุ่นก่อนหน้าที่มีเสียงคล้ายหุ่นยนต์ เพราะช่วยให้ผู้ใช้สามารถกำหนดสไตล์การใช้เสียง การถ่ายทอด และจังหวะการตอบโต้ของแชทบอทผ่านคำสั่งแบบข้อความได้ วิดีโอที่โพสต์บน X แสดงให้เห็นว่า Gemini 3.1 Flash TTS มีตัวเลือกขั้นสูงสำหรับการควบคุมเสียงที่โมเดลส่งออกมา พร้อมการควบคุมที่สามารถปรับเปลี่ยนการเน้นเสียงและโทนเสียงได้ โดยมีตัวเลือกต่าง ๆ เช่น กระตือรือร้น ประหลาดใจในเชิงบวก และให้ข้อมูล

นอกจากนี้ โมเดลยังอนุญาตให้ผู้ใช้เลือกสำเนียงท้องถิ่นที่แตกต่างกันของภาษาหลักหลายภาษา โดยภาษาอังกฤษมีตัวเลือกมากมายให้เลือก รวมถึงสำเนียงอเมริกันแบบ “Valley” และ “Southern” รวมถึงสำเนียงบริติชอีกหลายรูปแบบ เช่น “Brixton” และ “RP” นอกจากนี้ยังมีสำเนียงอื่น ๆ เช่น “Transatlantic” อีกด้วย

อีกหนึ่งฟีเจอร์คือการควบคุมในระดับผู้กำกับของ Gemini 3.1 Flash TTS ซึ่งช่วยให้ผู้ใช้ปรับสไตล์การพูดและจังหวะของโมเดลได้ ทั้งยังมีเทมเพลตสำหรับรูปแบบต่าง ๆ ที่ผู้ใช้สามารถเลือกได้ เช่น บทสนทนาพอดแคสต์ ผู้บรรยายหนังสือเสียง ติวเตอร์สอนภาษา ผู้ช่วยเสียง ไกด์ด้านสุขภาพ ผู้ประกาศข่าว และสไตล์การสนับสนุนในรูปแบบซัพพอร์ตเอเจนต์ โดย Google กล่าวว่าผู้ใช้จะสามารถ “กำหนดเวที” ได้ด้วยการระบุสภาพแวดล้อมและให้คำแนะนำในการสนทนาที่เฉพาะเจาะจง และสามารถส่งออกการตั้งค่าเหล่านี้เป็นโค้ด API ได้

“บริบทการสร้างโลกนี้ช่วยให้ตัวละครยังคง ‘อยู่ในบทบาท’ และโต้ตอบกันอย่างเป็นธรรมชาติผ่านการสนทนาหลายรอบ” บริษัทระบุในบล็อกโพสต์ “เมื่อการแสดงได้รับการปรับแต่งจนสมบูรณ์แบบแล้ว พารามิเตอร์ที่แม่นยำเหล่านี้สามารถส่งออกเป็นโค้ด Gemini API เพื่อให้มั่นใจว่าจะมีเสียงที่สม่ำเสมอและจดจำได้ในโครงการและแพลตฟอร์มต่าง ๆ”

Google กล่าวว่าเป้าหมายของ Gemini 3.1 Flash TTS คือการมอบประสบการณ์การพูดที่ฟังดูเป็นธรรมชาติมากขึ้น และกำลังดำเนินการในภาษาต่าง ๆ มากกว่า 70 ภาษา รวมถึงภาษาญี่ปุ่น ภาษาฮินดี และภาษาเยอรมัน โมเดลนี้ยังมีฟีเจอร์ลายน้ำ SynthID ในทุกผลลัพธ์ที่สร้างขึ้น เพื่อให้ง่ายต่อการตรวจจับเนื้อหา

ในตารางอันดับ Artificial Analysis TTS ซึ่งเป็นเกณฑ์มาตรฐานที่รวบรวมความพึงพอใจของมนุษย์แบบ Blind Test หลายพันรายการ Gemini 3.1 Flash TTS ครองอันดับสองโดยรวมด้วยคะแนน 1211 ซึ่งแซงหน้าโมเดลข้อความเป็นคำพูดที่เป็นที่นิยมอื่น ๆ อีกมากมาย

ปัจจุบันนักพัฒนาสามารถเข้าถึงโมเดลนี้ได้ผ่าน Gemini API และ Google AI Studio ส่วนระดับองค์กรสามารถเข้าถึงได้ผ่านแพลตฟอร์ม Vertex AI สำหรับบุคคลทั่วไปสามารถทดลองใช้งานได้ที่ Google Vids

ที่มา: https://siliconangle.com/2026/04/15/googles-gemini-3-1-flash-tts-offers-unparalleled-control-ai-voices/

About นักเขียนฝึกหัดหมายเลขเก้า

Check Also

ยกระดับ AI Vibe Coding สู่ Spec-Driven Development ด้วย GitHub Copilot และ Enterprise Governance พร้อมเบื้องหลังการทำ Agentic SDLC

ปัจจุบัน AI ก้าวข้ามขีดจำกัดจากการเป็นเพียงเครื่องมือช่วยเขียนโค้ด สู่การเป็น Agent ที่สามารถทำงานสอดประสานร่วมกับนักพัฒนาได้แบบ End-to-End ตลอด Software Development Lifecycle หรือ SDLC ทว่าในโลกการพัฒนาซอฟต์แวร์ระดับ Enterprise …

Microsoft Defender for Endpoint เพิ่มฟีเจอร์แยกอุปกรณ์ที่ถูกโจมตีออกจากเครือข่ายโดยอัตโนมัติ

Microsoft เปิดตัวความสามารถใหม่ใน Defender for Endpoint ที่สามารถแยกอุปกรณ์ที่ถูกบุกรุกออกจากเครือข่ายโดยอัตโนมัติ เพื่อป้องกันไม่ให้ผู้โจมตีเคลื่อนย้ายภายในระบบได้ โดยขณะนี้อยู่ในสถานะ Preview