Microsoft ได้เปิดตัวโมเดลปัญญาประดิษฐ์สามรุ่นที่ปรับปรุงมาเพื่อประมวลผลภาพและเสียงโดยเฉพาะ อัลกอริทึมเหล่านี้พร้อมใช้งานผ่าน Microsoft Foundry ซึ่งเป็นบริการ Azure ที่นักพัฒนาสามารถใช้เพื่อสร้างแอปพลิเคชัน AI ได้ ยักษ์ใหญ่ด้านเทคโนโลยียังได้เริ่มทยอยปล่อยโมเดลเหล่านี้ไปยังผลิตภัณฑ์อื่น ๆ อีกจำนวนหนึ่งด้วย

อัลกอริทึมใหม่ตัวแรกคือ MAI-Image-2 สามารถสร้างภาพที่มีความละเอียดสูงถึง 1024 x 1024 พิกเซลตามคำสั่งของผู้ใช้ แต่ละพรอมต์อาจมีความยาวได้ถึง 32,000 โทเค็น MAI-Image-2 จะเปลี่ยนคำสั่งเป็นภาพโดยใช้พารามิเตอร์แบบ non-embedding ระหว่าง 10 พันล้านถึง 50 พันล้าน พารามิเตอร์แบบ โดย non-embedding เป็นส่วนประกอบของโมเดลที่มุ่งเน้นการสร้างเนื้อหามากกว่างานเตรียมข้อมูลเบื้องต้น
Microsoft กล่าวว่า MAI-Image-2 มีความเร็วอย่างน้อยสองเท่าของโมเดลสร้างภาพรุ่นก่อนหน้า โมเดลใหม่ตัวที่สองที่เปิดตัวในวันนี้คือ MAI-Transcribe-1 ก็นำมาซึ่งการปรับปรุงความเร็วที่สำคัญเช่นกัน สามารถถอดความคำพูดได้เร็วกว่าโมเดลรุ่นก่อน ๆ ของ Microsoft ถึง 2.5 เท่า
จุดขายอีกประการหนึ่งของ MAI-Transcribe-1 คือความถูกต้องแม่นยำ Microsoft ทดสอบอัตราความผิดพลาดของคำเฉลี่ยของโมเดล ซึ่งเป็นมาตรวัดคุณภาพการถอดความ ใน 25 ภาษา MAI-Transcribe-1 บันทึกอัตราความผิดพลาด 3.9% ซึ่งทำให้เหนือกว่า Gemini 3.1 Flash และ GPT-Transcribe ของ OpenAI ปัจจัยหนึ่งที่ส่งผลต่อความแม่นยำของโมเดลคือฟีเจอร์สำหรับการกรองเสียงรบกวนรอบข้าง
ขณะนี้ MAI-Transcribe-1 รองรับการถอดความแบบกลุ่ม ซึ่งหมายความว่าโมเดลสามารถประมวลผลไฟล์ที่เตรียมไว้ล่วงหน้าได้เท่านั้น เช่น หนังสือเสียง ตามข้อมูลจาก Microsoft การอัปเดตในอนาคตจะเพิ่มความสามารถในการถอดความสตรีมเสียงแบบเรียลไทม์ บริษัทกำลังพัฒนาฟีเจอร์ที่เรียกว่า diarization ซึ่งสามารถแยกข้อความของการถอดความออกเป็นส่วน ๆ ที่เฉพาะเจาะจงกับผู้พูด
โมเดลที่สามที่ Microsoft แนะนำในวันนี้คือ MAI-Voice-1 โมเดลนี้ได้รับการปรับปรุงมาเพื่อสร้างเสียงสังเคราะห์ตามสคริปต์ที่ผู้ใช้ให้มา ลูกค้าสามารถเลือกเสียง AI ที่มีมาให้หรือใช้เสียงของตนเอง Microsoft กล่าวว่าโมเดลทั้งสามนำเสนอราคาที่แข่งขันได้เมื่อเทียบกับคู่แข่ง MAI-Image-2 มีราคา 5 ดอลลาร์ต่อ 1 ล้านโทเค็นอินพุต และ 33 ดอลลาร์ต่อ 1 ล้านโทเค็นเอาต์พุต MAI-Transcribe-1 มีราคา 0.36 ดอลลาร์ต่อชั่วโมงของคำพูดที่ถอดความ ในขณะที่ MAI-Voice-1 เริ่มต้นที่ 22 ดอลลาร์ต่อ 1 ล้านตัวอักษร
โมเดลเหล่านี้ไม่เพียงพร้อมใช้งานผ่าน Microsoft Foundry เท่านั้น แต่ยังรวมถึงบริการอื่น ๆ อีกหลายรายการ โดย Microsoft กำลังอยู่ระหว่างการทยอยเปิดใช้งาน MAI-Image-2 ไปยัง Bing และ PowerPoint ขณะที่ MAI-Voice-1 สามารถเข้าถึงได้ในเครื่องมือสร้างเสียงที่ชื่อว่า Copilot Audio Expressions
ยักษ์ใหญ่ด้านเทคโนโลยีได้พัฒนาชิป AI แบบกำหนดเองชุดหนึ่งชื่อว่า MAIA เพื่อจ่ายพลังงานให้กับภาระงาน AI สมาชิกใหม่ล่าสุดในตระกูลซีรีส์นี้คือ Maia 200 ที่ปรับปรุงเพื่อการประมวลผลเชิงอนุมาน เปิดตัวเมื่อปลายเดือนมกราคม Microsoft กล่าวว่าชิปแบบสามนาโนเมตรนี้ให้ประสิทธิภาพเหนือกว่าชิป AI แบบกำหนดเองของผู้ให้บริการคลาวด์ที่เป็นคู่แข่งในหลายมาตรวัดเปรียบเทียบ
ที่มา: https://siliconangle.com/2026/04/02/microsoft-launches-new-high-speed-voice-image-models/
TechTalkThai ศูนย์รวมข่าว Enterprise IT ออนไลน์แห่งแรกในประเทศไทย






