Microsoft เปิดตัวโมเดลเสียงและภาพความเร็วสูงใหม่

Microsoft ได้เปิดตัวโมเดลปัญญาประดิษฐ์สามรุ่นที่ปรับปรุงมาเพื่อประมวลผลภาพและเสียงโดยเฉพาะ อัลกอริทึมเหล่านี้พร้อมใช้งานผ่าน Microsoft Foundry ซึ่งเป็นบริการ Azure ที่นักพัฒนาสามารถใช้เพื่อสร้างแอปพลิเคชัน AI ได้ ยักษ์ใหญ่ด้านเทคโนโลยียังได้เริ่มทยอยปล่อยโมเดลเหล่านี้ไปยังผลิตภัณฑ์อื่น ๆ อีกจำนวนหนึ่งด้วย

Credit: Microsoft

อัลกอริทึมใหม่ตัวแรกคือ MAI-Image-2 สามารถสร้างภาพที่มีความละเอียดสูงถึง 1024 x 1024 พิกเซลตามคำสั่งของผู้ใช้ แต่ละพรอมต์อาจมีความยาวได้ถึง 32,000 โทเค็น MAI-Image-2 จะเปลี่ยนคำสั่งเป็นภาพโดยใช้พารามิเตอร์แบบ non-embedding ระหว่าง 10 พันล้านถึง 50 พันล้าน พารามิเตอร์แบบ โดย non-embedding เป็นส่วนประกอบของโมเดลที่มุ่งเน้นการสร้างเนื้อหามากกว่างานเตรียมข้อมูลเบื้องต้น

Microsoft กล่าวว่า MAI-Image-2 มีความเร็วอย่างน้อยสองเท่าของโมเดลสร้างภาพรุ่นก่อนหน้า โมเดลใหม่ตัวที่สองที่เปิดตัวในวันนี้คือ MAI-Transcribe-1 ก็นำมาซึ่งการปรับปรุงความเร็วที่สำคัญเช่นกัน สามารถถอดความคำพูดได้เร็วกว่าโมเดลรุ่นก่อน ๆ ของ Microsoft ถึง 2.5 เท่า

จุดขายอีกประการหนึ่งของ MAI-Transcribe-1 คือความถูกต้องแม่นยำ Microsoft ทดสอบอัตราความผิดพลาดของคำเฉลี่ยของโมเดล ซึ่งเป็นมาตรวัดคุณภาพการถอดความ ใน 25 ภาษา MAI-Transcribe-1 บันทึกอัตราความผิดพลาด 3.9% ซึ่งทำให้เหนือกว่า Gemini 3.1 Flash และ GPT-Transcribe ของ OpenAI ปัจจัยหนึ่งที่ส่งผลต่อความแม่นยำของโมเดลคือฟีเจอร์สำหรับการกรองเสียงรบกวนรอบข้าง

ขณะนี้ MAI-Transcribe-1 รองรับการถอดความแบบกลุ่ม ซึ่งหมายความว่าโมเดลสามารถประมวลผลไฟล์ที่เตรียมไว้ล่วงหน้าได้เท่านั้น เช่น หนังสือเสียง ตามข้อมูลจาก Microsoft การอัปเดตในอนาคตจะเพิ่มความสามารถในการถอดความสตรีมเสียงแบบเรียลไทม์ บริษัทกำลังพัฒนาฟีเจอร์ที่เรียกว่า diarization ซึ่งสามารถแยกข้อความของการถอดความออกเป็นส่วน ๆ ที่เฉพาะเจาะจงกับผู้พูด

โมเดลที่สามที่ Microsoft แนะนำในวันนี้คือ MAI-Voice-1 โมเดลนี้ได้รับการปรับปรุงมาเพื่อสร้างเสียงสังเคราะห์ตามสคริปต์ที่ผู้ใช้ให้มา ลูกค้าสามารถเลือกเสียง AI ที่มีมาให้หรือใช้เสียงของตนเอง Microsoft กล่าวว่าโมเดลทั้งสามนำเสนอราคาที่แข่งขันได้เมื่อเทียบกับคู่แข่ง MAI-Image-2 มีราคา 5 ดอลลาร์ต่อ 1 ล้านโทเค็นอินพุต และ 33 ดอลลาร์ต่อ 1 ล้านโทเค็นเอาต์พุต MAI-Transcribe-1 มีราคา 0.36 ดอลลาร์ต่อชั่วโมงของคำพูดที่ถอดความ ในขณะที่ MAI-Voice-1 เริ่มต้นที่ 22 ดอลลาร์ต่อ 1 ล้านตัวอักษร

โมเดลเหล่านี้ไม่เพียงพร้อมใช้งานผ่าน Microsoft Foundry เท่านั้น แต่ยังรวมถึงบริการอื่น ๆ อีกหลายรายการ โดย Microsoft กำลังอยู่ระหว่างการทยอยเปิดใช้งาน MAI-Image-2 ไปยัง Bing และ PowerPoint ขณะที่ MAI-Voice-1 สามารถเข้าถึงได้ในเครื่องมือสร้างเสียงที่ชื่อว่า Copilot Audio Expressions

ยักษ์ใหญ่ด้านเทคโนโลยีได้พัฒนาชิป AI แบบกำหนดเองชุดหนึ่งชื่อว่า MAIA เพื่อจ่ายพลังงานให้กับภาระงาน AI สมาชิกใหม่ล่าสุดในตระกูลซีรีส์นี้คือ Maia 200 ที่ปรับปรุงเพื่อการประมวลผลเชิงอนุมาน เปิดตัวเมื่อปลายเดือนมกราคม Microsoft กล่าวว่าชิปแบบสามนาโนเมตรนี้ให้ประสิทธิภาพเหนือกว่าชิป AI แบบกำหนดเองของผู้ให้บริการคลาวด์ที่เป็นคู่แข่งในหลายมาตรวัดเปรียบเทียบ

ที่มา: https://siliconangle.com/2026/04/02/microsoft-launches-new-high-speed-voice-image-models/

About นักเขียนฝึกหัดหมายเลขเก้า

Check Also

Extreme Networks เปิดตัว Wi-Fi 7 AP รุ่นใหม่ พร้อม Agentic AI สำหรับบริหารจัดการระบบเครือข่ายแบบอัตโนมัติ

Extreme Networks ได้ออกมาประกาศถึงอัปเดตครั้งใหญ่ โดยเปิดตัว Wi-Fi 7 Access Point รุ่นใหม่ล่าสุด 5 รุ่น พร้อมนวัตกรรมใหม่ในการบริหารจัดการระบบเครือข่ายด้วย AI Agent เพื่อดูแลรักษาระบบเครือข่ายขององค์กรให้ทำงานได้อย่างต่อเนื่องโดยอัตโนมัติ

Omnissa เปิดตัว Workspace ONE UEM 2604 บริหารจัดการ Windows Server ได้แล้ว เพิ่มความสามารถใหม่ๆ มากมาย

Omnissa ได้ออกมาเปิดตัว Release ใหม่ล่าสุด 2604 โดยถือเป็นหนึ่งในการอัปเดตครั้งใหญ่ที่สุด ด้วยความสามารถใหม่ๆ มากมาย ดังนี้