Gemini 3.1 Flash TTS ใหม่ของ Google มอบการควบคุมเสียง AI เหนือชั้น

April 16, 2026 AI, Cloud and Systems, Google, Products

หน่วยงานปัญญาประดิษฐ์ DeepMind ของ Google ได้เปิดตัวโมเดลแปลงข้อความเป็นเสียงพูดรุ่นใหม่ภายใต้ชื่อ Gemini 3.1 Flash TTS

บริษัทระบุในบล็อกโพสต์ว่า โมเดลนี้ไม่เหมือนกับรุ่นก่อนหน้าที่มีเสียงคล้ายหุ่นยนต์ เพราะช่วยให้ผู้ใช้สามารถกำหนดสไตล์การใช้เสียง การถ่ายทอด และจังหวะการตอบโต้ของแชทบอทผ่านคำสั่งแบบข้อความได้ วิดีโอที่โพสต์บน X แสดงให้เห็นว่า Gemini 3.1 Flash TTS มีตัวเลือกขั้นสูงสำหรับการควบคุมเสียงที่โมเดลส่งออกมา พร้อมการควบคุมที่สามารถปรับเปลี่ยนการเน้นเสียงและโทนเสียงได้ โดยมีตัวเลือกต่าง ๆ เช่น กระตือรือร้น ประหลาดใจในเชิงบวก และให้ข้อมูล

นอกจากนี้ โมเดลยังอนุญาตให้ผู้ใช้เลือกสำเนียงท้องถิ่นที่แตกต่างกันของภาษาหลักหลายภาษา โดยภาษาอังกฤษมีตัวเลือกมากมายให้เลือก รวมถึงสำเนียงอเมริกันแบบ “Valley” และ “Southern” รวมถึงสำเนียงบริติชอีกหลายรูปแบบ เช่น “Brixton” และ “RP” นอกจากนี้ยังมีสำเนียงอื่น ๆ เช่น “Transatlantic” อีกด้วย

อีกหนึ่งฟีเจอร์คือการควบคุมในระดับผู้กำกับของ Gemini 3.1 Flash TTS ซึ่งช่วยให้ผู้ใช้ปรับสไตล์การพูดและจังหวะของโมเดลได้ ทั้งยังมีเทมเพลตสำหรับรูปแบบต่าง ๆ ที่ผู้ใช้สามารถเลือกได้ เช่น บทสนทนาพอดแคสต์ ผู้บรรยายหนังสือเสียง ติวเตอร์สอนภาษา ผู้ช่วยเสียง ไกด์ด้านสุขภาพ ผู้ประกาศข่าว และสไตล์การสนับสนุนในรูปแบบซัพพอร์ตเอเจนต์ โดย Google กล่าวว่าผู้ใช้จะสามารถ “กำหนดเวที” ได้ด้วยการระบุสภาพแวดล้อมและให้คำแนะนำในการสนทนาที่เฉพาะเจาะจง และสามารถส่งออกการตั้งค่าเหล่านี้เป็นโค้ด API ได้

“บริบทการสร้างโลกนี้ช่วยให้ตัวละครยังคง ‘อยู่ในบทบาท’ และโต้ตอบกันอย่างเป็นธรรมชาติผ่านการสนทนาหลายรอบ” บริษัทระบุในบล็อกโพสต์ “เมื่อการแสดงได้รับการปรับแต่งจนสมบูรณ์แบบแล้ว พารามิเตอร์ที่แม่นยำเหล่านี้สามารถส่งออกเป็นโค้ด Gemini API เพื่อให้มั่นใจว่าจะมีเสียงที่สม่ำเสมอและจดจำได้ในโครงการและแพลตฟอร์มต่าง ๆ”

Google กล่าวว่าเป้าหมายของ Gemini 3.1 Flash TTS คือการมอบประสบการณ์การพูดที่ฟังดูเป็นธรรมชาติมากขึ้น และกำลังดำเนินการในภาษาต่าง ๆ มากกว่า 70 ภาษา รวมถึงภาษาญี่ปุ่น ภาษาฮินดี และภาษาเยอรมัน โมเดลนี้ยังมีฟีเจอร์ลายน้ำ SynthID ในทุกผลลัพธ์ที่สร้างขึ้น เพื่อให้ง่ายต่อการตรวจจับเนื้อหา

ในตารางอันดับ Artificial Analysis TTS ซึ่งเป็นเกณฑ์มาตรฐานที่รวบรวมความพึงพอใจของมนุษย์แบบ Blind Test หลายพันรายการ Gemini 3.1 Flash TTS ครองอันดับสองโดยรวมด้วยคะแนน 1211 ซึ่งแซงหน้าโมเดลข้อความเป็นคำพูดที่เป็นที่นิยมอื่น ๆ อีกมากมาย

ปัจจุบันนักพัฒนาสามารถเข้าถึงโมเดลนี้ได้ผ่าน Gemini API และ Google AI Studio ส่วนระดับองค์กรสามารถเข้าถึงได้ผ่านแพลตฟอร์ม Vertex AI สำหรับบุคคลทั่วไปสามารถทดลองใช้งานได้ที่ Google Vids

ที่มา: https://siliconangle.com/2026/04/15/googles-gemini-3-1-flash-tts-offers-unparalleled-control-ai-voices/

Dell Technologies ปรับโฉมใหม่ Dell Pro รุกตลาด AI กรุยทางสู่อนาคตการใช้งานระดับองค์กร

เทรนด์ของ AI PCs กำลังมีบทบาทมากขึ้นในปัจจุบัน ซึ่ง IDC คาดการณ์ว่าความต้องการของ AI PCs จะมีแต่ถูกเร่งขึ้นเรื่อยๆ เพราะ AI ได้แทรกเข้าไปในแทบทุกส่วนของการทำงาน ไม่ว่าจะเป็นการประชุม การสร้างคอนเท้นต์ …

NCSA ร่วมกับ Veeam ขอเชิญทุกท่านเข้าร่วมงานสัมมนาออนไลน์ในหัวข้อ “Data Trust ในยุค AI” [4 ส.ค. 2569 — 14.00น.]

NCSA ร่วมกับ Veeam ขอเชิญทุกท่านเข้าร่วมงานสัมมนาออนไลน์ในหัวข้อ “Data Trust ในยุค AI” เพื่อเรียนรู้กับการป้องกันไม่ให้ข้อมูลสำคัญขององค์กรหรือหน่วยงาน รั่วไหลไปกับการใช้งาน AI Agent ที่มีความรวดเร็วและซับซ้อนขึ้นเรื่อยๆ ด้วยมาตรการต่างๆ เช่น …

TechTalkThai ศูนย์รวมข่าว Enterprise IT ออนไลน์แห่งแรกในประเทศไทย

Gemini 3.1 Flash TTS ใหม่ของ Google มอบการควบคุมเสียง AI เหนือชั้น

About นักเขียนฝึกหัดหมายเลขเก้า

Related Articles

Check Also

Dell Technologies ปรับโฉมใหม่ Dell Pro รุกตลาด AI กรุยทางสู่อนาคตการใช้งานระดับองค์กร

NCSA ร่วมกับ Veeam ขอเชิญทุกท่านเข้าร่วมงานสัมมนาออนไลน์ในหัวข้อ “Data Trust ในยุค AI” [4 ส.ค. 2569 — 14.00น.]

Gemini 3.1 Flash TTS ใหม่ของ Google มอบการควบคุมเสียง AI เหนือชั้น

Share this:

About นักเขียนฝึกหัดหมายเลขเก้า

Related Articles

Check Also