Gemini 3.1 Flash TTS ใหม่ของ Google มอบการควบคุมเสียง AI เหนือชั้น

หน่วยงานปัญญาประดิษฐ์ DeepMind ของ Google ได้เปิดตัวโมเดลแปลงข้อความเป็นเสียงพูดรุ่นใหม่ภายใต้ชื่อ Gemini 3.1 Flash TTS

Credit: Google

บริษัทระบุในบล็อกโพสต์ว่า โมเดลนี้ไม่เหมือนกับรุ่นก่อนหน้าที่มีเสียงคล้ายหุ่นยนต์ เพราะช่วยให้ผู้ใช้สามารถกำหนดสไตล์การใช้เสียง การถ่ายทอด และจังหวะการตอบโต้ของแชทบอทผ่านคำสั่งแบบข้อความได้ วิดีโอที่โพสต์บน X แสดงให้เห็นว่า Gemini 3.1 Flash TTS มีตัวเลือกขั้นสูงสำหรับการควบคุมเสียงที่โมเดลส่งออกมา พร้อมการควบคุมที่สามารถปรับเปลี่ยนการเน้นเสียงและโทนเสียงได้ โดยมีตัวเลือกต่าง ๆ เช่น กระตือรือร้น ประหลาดใจในเชิงบวก และให้ข้อมูล

นอกจากนี้ โมเดลยังอนุญาตให้ผู้ใช้เลือกสำเนียงท้องถิ่นที่แตกต่างกันของภาษาหลักหลายภาษา โดยภาษาอังกฤษมีตัวเลือกมากมายให้เลือก รวมถึงสำเนียงอเมริกันแบบ “Valley” และ “Southern” รวมถึงสำเนียงบริติชอีกหลายรูปแบบ เช่น “Brixton” และ “RP” นอกจากนี้ยังมีสำเนียงอื่น ๆ เช่น “Transatlantic” อีกด้วย

อีกหนึ่งฟีเจอร์คือการควบคุมในระดับผู้กำกับของ Gemini 3.1 Flash TTS ซึ่งช่วยให้ผู้ใช้ปรับสไตล์การพูดและจังหวะของโมเดลได้ ทั้งยังมีเทมเพลตสำหรับรูปแบบต่าง ๆ ที่ผู้ใช้สามารถเลือกได้ เช่น บทสนทนาพอดแคสต์ ผู้บรรยายหนังสือเสียง ติวเตอร์สอนภาษา ผู้ช่วยเสียง ไกด์ด้านสุขภาพ ผู้ประกาศข่าว และสไตล์การสนับสนุนในรูปแบบซัพพอร์ตเอเจนต์ โดย Google กล่าวว่าผู้ใช้จะสามารถ “กำหนดเวที” ได้ด้วยการระบุสภาพแวดล้อมและให้คำแนะนำในการสนทนาที่เฉพาะเจาะจง และสามารถส่งออกการตั้งค่าเหล่านี้เป็นโค้ด API ได้

“บริบทการสร้างโลกนี้ช่วยให้ตัวละครยังคง ‘อยู่ในบทบาท’ และโต้ตอบกันอย่างเป็นธรรมชาติผ่านการสนทนาหลายรอบ” บริษัทระบุในบล็อกโพสต์ “เมื่อการแสดงได้รับการปรับแต่งจนสมบูรณ์แบบแล้ว พารามิเตอร์ที่แม่นยำเหล่านี้สามารถส่งออกเป็นโค้ด Gemini API เพื่อให้มั่นใจว่าจะมีเสียงที่สม่ำเสมอและจดจำได้ในโครงการและแพลตฟอร์มต่าง ๆ”

Google กล่าวว่าเป้าหมายของ Gemini 3.1 Flash TTS คือการมอบประสบการณ์การพูดที่ฟังดูเป็นธรรมชาติมากขึ้น และกำลังดำเนินการในภาษาต่าง ๆ มากกว่า 70 ภาษา รวมถึงภาษาญี่ปุ่น ภาษาฮินดี และภาษาเยอรมัน โมเดลนี้ยังมีฟีเจอร์ลายน้ำ SynthID ในทุกผลลัพธ์ที่สร้างขึ้น เพื่อให้ง่ายต่อการตรวจจับเนื้อหา

ในตารางอันดับ Artificial Analysis TTS ซึ่งเป็นเกณฑ์มาตรฐานที่รวบรวมความพึงพอใจของมนุษย์แบบ Blind Test หลายพันรายการ Gemini 3.1 Flash TTS ครองอันดับสองโดยรวมด้วยคะแนน 1211 ซึ่งแซงหน้าโมเดลข้อความเป็นคำพูดที่เป็นที่นิยมอื่น ๆ อีกมากมาย

ปัจจุบันนักพัฒนาสามารถเข้าถึงโมเดลนี้ได้ผ่าน Gemini API และ Google AI Studio ส่วนระดับองค์กรสามารถเข้าถึงได้ผ่านแพลตฟอร์ม Vertex AI สำหรับบุคคลทั่วไปสามารถทดลองใช้งานได้ที่ Google Vids

ที่มา: https://siliconangle.com/2026/04/15/googles-gemini-3-1-flash-tts-offers-unparalleled-control-ai-voices/

About นักเขียนฝึกหัดหมายเลขเก้า

Check Also

OpsMill ผู้สร้าง ‘Infrahub’ ระดมทุน 14 ล้านดอลลาร์ ช่วยเอเจนต์ AI เห็นโครงสร้างพื้นฐานทั้งองค์กรในภาพเดียว

OpsMill สตาร์ทอัพด้านการจัดการข้อมูลโครงสร้างพื้นฐาน ประกาศระดมทุนรอบใหม่มูลค่า 14 ล้านดอลลาร์ เพื่อขยายแพลตฟอร์มการจัดการข้อมูลโครงสร้างพื้นฐานที่มุ่งทำให้สภาพแวดล้อมไอทีขององค์กรพร้อมสำหรับระบบอัตโนมัติที่ขับเคลื่อนด้วยปัญญาประดิษฐ์

UIH จับมือ พันธมิตรเทคโนโลยีระดับโลก เดินหน้าขับเคลื่อนองค์กรไทย เต็มรูปแบบปี 2026 [PR]

UIH ประกาศวิสัยทัศน์ 5 เสาหลักปี 2026 พร้อมจับมือพันธมิตรระดับโลกอย่าง Microsoft เสริมศักยภาพดิจิทัลให้ธุรกิจไทยก้าวข้ามขีดจำกัด บริษัท ยูไนเต็ด อินฟอร์เมชั่น ไฮเวย์ จำกัด (UIH) ผู้นำด้านโครงสร้างพื้นฐานด้านโทรคมนาคม …