Microsoft เปิดซอร์สโมเดลการใช้เหตุผลแบบมัลติโหมด ขนาด 15 พันล้านพารามิเตอร์

March 5, 2026 AI, Cloud and Systems, Microsoft, Open Source Software, Products, Software Development & DevOps

Microsoft ได้เปิดตัว Phi-4-reasoning-vision-15B ซึ่งเป็นโมเดลการใช้เหตุผลที่มีประสิทธิภาพการใช้ฮาร์ดแวร์สูง โดยสามารถประมวลผลไฟล์หลายรูปแบบ เช่น แผนภูมิทางวิทยาศาสตร์ ได้

โมเดลนี้ใช้พื้นฐานจากอัลกอริทึมที่มีอยู่สองตัว ได้แก่ SigLIP-2 และ Phi-4 Reasoning โดย SigLIP-2 ทำหน้าที่บีบอัดรูปภาพให้อยู่ในรูปแบบตัวเลขที่เครือข่ายประสาทเทียมสามารถเข้าใจได้ ในขณะที่ Phi-4 Reasoning คือโมเดลการใช้เหตุผลที่ Microsoft ได้เปิดซอร์สไปเมื่อเดือนเมษายนที่ผ่านมา

นักวิจัยของบริษัทได้รวมอัลกอริทึมทั้งสองเข้าด้วยกันโดยใช้แนวทางที่เรียกว่า mid-fusion ปกติแล้วโมเดลปัญญาประดิษฐ์จะประกอบด้วยกลุ่มของเซลล์ประสาทเทียมที่เรียกว่า “เลเยอร์” วิศวกรสามารถออกแบบให้ทุกเลเยอร์ของโมเดลมีความสามารถในการประมวลผลข้อมูลแบบมัลติโหมดได้ แต่ในโมเดลแบบ mid-fusion อย่าง Phi-4-reasoning-vision-15B จะมีเพียงบางเลเยอร์เท่านั้นที่รองรับการประมวลผลดังกล่าว การจัดวางในลักษณะนี้เป็นการยอมแลกคุณภาพของผลลัพธ์บางส่วน เพื่อให้สามารถลดการใช้งานฮาร์ดแวร์ลงได้อย่างมาก

Microsoft ระบุว่า ผู้ใช้ยังสามารถลดการใช้โครงสร้างพื้นฐานของโมเดลลงได้อีกด้วยการปิดฟีเจอร์การใช้เหตุผล ซึ่งความสามารถนี้สามารถเปิดหรือปิดได้ผ่านทางพรอมต์

บริษัทฝึกฝน Phi-4-reasoning-vision-15B โดยใช้ข้อมูลโอเพนซอร์สเป็นหลัก ซึ่งรวมถึงรูปภาพและคำอธิบายในรูปแบบข้อความของวัตถุที่ปรากฏในภาพเหล่านั้น ก่อนที่จะเริ่มการฝึกฝน Microsoft ได้ปรับปรุงไฟล์ข้อมูลผ่านกระบวนการหลายขั้นตอน

ในขั้นตอนแรก บริษัทได้คัดแยกชุดข้อมูลคุณภาพสูงที่ไม่จำเป็นต้องแก้ไขออกมา จากนั้นจึงค้นหาชุดไฟล์ที่มีรูปภาพคุณภาพสูงแต่มีคำบรรยายที่ไม่ถูกต้อง นักวิจัยของ Microsoft จึงได้สร้างคำบรรยายใหม่ให้กับรูปภาพเหล่านั้นโดยใช้ GPT-4o และ o4-mini

นอกจากนี้ บริษัทยังได้เพิ่มประสิทธิภาพให้กับไฟล์โอเพนซอร์สที่ปรับปรุงแล้วด้วยข้อมูลการฝึกฝนที่สร้างขึ้นภายใน และ “ข้อมูลคุณภาพสูงจากการเข้าซื้อกิจการที่ตรงเป้าหมาย” ยิ่งไปกว่านั้น ยังมีการเพิ่มตัวอย่างพฤติกรรมที่โมเดลควรหลีกเลี่ยงเข้าไปด้วย ซึ่งชุดข้อมูลส่วนหลังนี้จะช่วยให้ Phi-4-reasoning-vision-15B หลีกเลี่ยงการสร้างผลลัพธ์ที่เป็นอันตราย เพื่อความปลอดภัยและความความมั่นคงปลอดภัยในการใช้งาน

Microsoft ได้เปรียบเทียบอัลกอริทึมนี้กับโมเดลการใช้เหตุผลหลายตัวที่มีขนาดใกล้เคียงกัน โดยใช้ชุดเกณฑ์มาตรฐานแบบโอเพนซอร์ส ผลปรากฏว่า Phi-4-reasoning-vision-15B ทำคะแนนได้สูงกว่า gemma-3-12b-it ของ Google ถึง 17% ใน MathVista_Mini ซึ่งเป็นเกณฑ์มาตรฐานที่ประกอบด้วยคำถามทางคณิตศาสตร์แบบมัลติโหมดนอกจากนี้ โมเดลยังทำคะแนนได้สูงกว่าในการประเมินด้านอื่น ๆ อีกมากกว่าครึ่งโหล

“เรามีประสิทธิภาพที่สามารถแข่งขันได้กับโมเดลที่ช้ากว่ามาก ซึ่งต้องใช้เวลาประมวลผลและโทเคนมากกว่าถึง 10 เท่าหรือมากกว่านั้น และมีความแม่นยำดีกว่าโมเดลที่มีความเร็วใกล้เคียงกัน โดยเฉพาะอย่างยิ่งในเรื่องการใช้เหตุผลทางคณิตศาสตร์และวิทยาศาสตร์” นักวิจัยของ Microsoft เขียนไว้ในบล็อกโพสต์

นักพัฒนาสามารถใช้ Phi-4-reasoning-vision-15B เพื่อสร้างเอเจนต์ AI ที่สามารถโต้ตอบกับแอปพลิเคชันผ่านอินเทอร์เฟซผู้ใช้ได้ โดยโมเดลนี้สามารถวิเคราะห์หน้าที่ขององค์ประกอบต่าง ๆ บนอินเทอร์เฟซจากภาพสกรีนช็อต

“ด้วยการรับรู้ความละเอียดสูงที่แข็งแกร่งและความสามารถในการระบุตำแหน่งอย่างละเอียด Phi-4-reasoning-vision-15B จึงเป็นตัวเลือกที่น่าสนใจในการเป็นโมเดลพื้นฐานสำหรับการฝึกฝนโมเดลเชิงเอเจนต์ เช่น โมเดลที่นำทางผ่านอินเทอร์เฟซบนเดสก์ท็อป เว็บ และมือถือ โดยการระบุและกำหนดตำแหน่งขององค์ประกอบที่โต้ตอบได้ เช่น ปุ่ม เมนู และช่องกรอกข้อความ” นักวิจัยอธิบาย

โมเดลนี้ยังสามารถวิเคราะห์สินทรัพย์ภาพที่ซับซ้อนกว่านั้นได้ เช่น แผนภูมิทางวิทยาศาสตร์ ในการสาธิตที่ Microsoft แชร์ ผู้ใช้ได้อัปโหลดภาพถ่ายของดาวเสาร์และถาม Phi-4-reasoning-vision-15B ว่าทำไมดาวเคราะห์ถึงดูเอียง ซึ่งโมเดลได้อธิบายว่าการวางตัวของดาวเสาร์นั้นขึ้นอยู่กับช่วงเวลาของปีและตำแหน่งของกล้องโทรทรรศน์ที่ถ่ายภาพนั้น

Microsoft ได้เปิดให้เข้าถึงโค้ดของโมเดลแล้วบน Hugging Face, GitHub และ Azure

ที่มา: https://siliconangle.com/2026/03/04/microsoft-open-sources-multimodal-reasoning-model-15b-parameters/

NCSA ร่วมกับ Veeam ขอเชิญทุกท่านเข้าร่วมงานสัมมนาออนไลน์ในหัวข้อ “Data Trust ในยุค AI” [4 ส.ค. 2569 — 14.00น.]

NCSA ร่วมกับ Veeam ขอเชิญทุกท่านเข้าร่วมงานสัมมนาออนไลน์ในหัวข้อ “Data Trust ในยุค AI” เพื่อเรียนรู้กับการป้องกันไม่ให้ข้อมูลสำคัญขององค์กรหรือหน่วยงาน รั่วไหลไปกับการใช้งาน AI Agent ที่มีความรวดเร็วและซับซ้อนขึ้นเรื่อยๆ ด้วยมาตรการต่างๆ เช่น …

รายงาน 2026H1 Threat Review จาก Forescout ชี้ช่องโหว่พุ่ง 51% และ Ransomware เพิ่มขึ้น 25%

Forescout เผยรายงาน 2026H1 Threat Review วิเคราะห์แนวโน้มภัยคุกคามไซเบอร์ทั่วโลกในครึ่งแรกของปี 2026 พบช่องโหว่ที่ถูกเผยแพร่เพิ่มขึ้น 51% เมื่อเทียบกับปีก่อน ขณะที่การอ้างการโจมตีด้วย Ransomware เพิ่มขึ้น 25%

TechTalkThai ศูนย์รวมข่าว Enterprise IT ออนไลน์แห่งแรกในประเทศไทย

Microsoft เปิดซอร์สโมเดลการใช้เหตุผลแบบมัลติโหมด ขนาด 15 พันล้านพารามิเตอร์

About นักเขียนฝึกหัดหมายเลขเก้า

Related Articles

Check Also

NCSA ร่วมกับ Veeam ขอเชิญทุกท่านเข้าร่วมงานสัมมนาออนไลน์ในหัวข้อ “Data Trust ในยุค AI” [4 ส.ค. 2569 — 14.00น.]

รายงาน 2026H1 Threat Review จาก Forescout ชี้ช่องโหว่พุ่ง 51% และ Ransomware เพิ่มขึ้น 25%

Microsoft เปิดซอร์สโมเดลการใช้เหตุผลแบบมัลติโหมด ขนาด 15 พันล้านพารามิเตอร์

Share this:

About นักเขียนฝึกหัดหมายเลขเก้า

Related Articles

Check Also