Microsoft เปิดซอร์สโมเดลการใช้เหตุผลแบบมัลติโหมด ขนาด 15 พันล้านพารามิเตอร์

Microsoft ได้เปิดตัว Phi-4-reasoning-vision-15B ซึ่งเป็นโมเดลการใช้เหตุผลที่มีประสิทธิภาพการใช้ฮาร์ดแวร์สูง โดยสามารถประมวลผลไฟล์หลายรูปแบบ เช่น แผนภูมิทางวิทยาศาสตร์ ได้

Credit: Microsoft

โมเดลนี้ใช้พื้นฐานจากอัลกอริทึมที่มีอยู่สองตัว ได้แก่ SigLIP-2 และ Phi-4 Reasoning โดย SigLIP-2 ทำหน้าที่บีบอัดรูปภาพให้อยู่ในรูปแบบตัวเลขที่เครือข่ายประสาทเทียมสามารถเข้าใจได้ ในขณะที่ Phi-4 Reasoning คือโมเดลการใช้เหตุผลที่ Microsoft ได้เปิดซอร์สไปเมื่อเดือนเมษายนที่ผ่านมา

นักวิจัยของบริษัทได้รวมอัลกอริทึมทั้งสองเข้าด้วยกันโดยใช้แนวทางที่เรียกว่า mid-fusion ปกติแล้วโมเดลปัญญาประดิษฐ์จะประกอบด้วยกลุ่มของเซลล์ประสาทเทียมที่เรียกว่า “เลเยอร์” วิศวกรสามารถออกแบบให้ทุกเลเยอร์ของโมเดลมีความสามารถในการประมวลผลข้อมูลแบบมัลติโหมดได้ แต่ในโมเดลแบบ mid-fusion อย่าง Phi-4-reasoning-vision-15B จะมีเพียงบางเลเยอร์เท่านั้นที่รองรับการประมวลผลดังกล่าว การจัดวางในลักษณะนี้เป็นการยอมแลกคุณภาพของผลลัพธ์บางส่วน เพื่อให้สามารถลดการใช้งานฮาร์ดแวร์ลงได้อย่างมาก

Microsoft ระบุว่า ผู้ใช้ยังสามารถลดการใช้โครงสร้างพื้นฐานของโมเดลลงได้อีกด้วยการปิดฟีเจอร์การใช้เหตุผล ซึ่งความสามารถนี้สามารถเปิดหรือปิดได้ผ่านทางพรอมต์

บริษัทฝึกฝน Phi-4-reasoning-vision-15B โดยใช้ข้อมูลโอเพนซอร์สเป็นหลัก ซึ่งรวมถึงรูปภาพและคำอธิบายในรูปแบบข้อความของวัตถุที่ปรากฏในภาพเหล่านั้น ก่อนที่จะเริ่มการฝึกฝน Microsoft ได้ปรับปรุงไฟล์ข้อมูลผ่านกระบวนการหลายขั้นตอน

ในขั้นตอนแรก บริษัทได้คัดแยกชุดข้อมูลคุณภาพสูงที่ไม่จำเป็นต้องแก้ไขออกมา จากนั้นจึงค้นหาชุดไฟล์ที่มีรูปภาพคุณภาพสูงแต่มีคำบรรยายที่ไม่ถูกต้อง นักวิจัยของ Microsoft จึงได้สร้างคำบรรยายใหม่ให้กับรูปภาพเหล่านั้นโดยใช้ GPT-4o และ o4-mini

นอกจากนี้ บริษัทยังได้เพิ่มประสิทธิภาพให้กับไฟล์โอเพนซอร์สที่ปรับปรุงแล้วด้วยข้อมูลการฝึกฝนที่สร้างขึ้นภายใน และ “ข้อมูลคุณภาพสูงจากการเข้าซื้อกิจการที่ตรงเป้าหมาย” ยิ่งไปกว่านั้น ยังมีการเพิ่มตัวอย่างพฤติกรรมที่โมเดลควรหลีกเลี่ยงเข้าไปด้วย ซึ่งชุดข้อมูลส่วนหลังนี้จะช่วยให้ Phi-4-reasoning-vision-15B หลีกเลี่ยงการสร้างผลลัพธ์ที่เป็นอันตราย เพื่อความปลอดภัยและความความมั่นคงปลอดภัยในการใช้งาน

Microsoft ได้เปรียบเทียบอัลกอริทึมนี้กับโมเดลการใช้เหตุผลหลายตัวที่มีขนาดใกล้เคียงกัน โดยใช้ชุดเกณฑ์มาตรฐานแบบโอเพนซอร์ส ผลปรากฏว่า Phi-4-reasoning-vision-15B ทำคะแนนได้สูงกว่า gemma-3-12b-it ของ Google ถึง 17% ใน MathVista_Mini ซึ่งเป็นเกณฑ์มาตรฐานที่ประกอบด้วยคำถามทางคณิตศาสตร์แบบมัลติโหมดนอกจากนี้ โมเดลยังทำคะแนนได้สูงกว่าในการประเมินด้านอื่น ๆ อีกมากกว่าครึ่งโหล

“เรามีประสิทธิภาพที่สามารถแข่งขันได้กับโมเดลที่ช้ากว่ามาก ซึ่งต้องใช้เวลาประมวลผลและโทเคนมากกว่าถึง 10 เท่าหรือมากกว่านั้น และมีความแม่นยำดีกว่าโมเดลที่มีความเร็วใกล้เคียงกัน โดยเฉพาะอย่างยิ่งในเรื่องการใช้เหตุผลทางคณิตศาสตร์และวิทยาศาสตร์” นักวิจัยของ Microsoft เขียนไว้ในบล็อกโพสต์

นักพัฒนาสามารถใช้ Phi-4-reasoning-vision-15B เพื่อสร้างเอเจนต์ AI ที่สามารถโต้ตอบกับแอปพลิเคชันผ่านอินเทอร์เฟซผู้ใช้ได้ โดยโมเดลนี้สามารถวิเคราะห์หน้าที่ขององค์ประกอบต่าง ๆ บนอินเทอร์เฟซจากภาพสกรีนช็อต

“ด้วยการรับรู้ความละเอียดสูงที่แข็งแกร่งและความสามารถในการระบุตำแหน่งอย่างละเอียด Phi-4-reasoning-vision-15B จึงเป็นตัวเลือกที่น่าสนใจในการเป็นโมเดลพื้นฐานสำหรับการฝึกฝนโมเดลเชิงเอเจนต์ เช่น โมเดลที่นำทางผ่านอินเทอร์เฟซบนเดสก์ท็อป เว็บ และมือถือ โดยการระบุและกำหนดตำแหน่งขององค์ประกอบที่โต้ตอบได้ เช่น ปุ่ม เมนู และช่องกรอกข้อความ” นักวิจัยอธิบาย

โมเดลนี้ยังสามารถวิเคราะห์สินทรัพย์ภาพที่ซับซ้อนกว่านั้นได้ เช่น แผนภูมิทางวิทยาศาสตร์ ในการสาธิตที่ Microsoft แชร์ ผู้ใช้ได้อัปโหลดภาพถ่ายของดาวเสาร์และถาม Phi-4-reasoning-vision-15B ว่าทำไมดาวเคราะห์ถึงดูเอียง ซึ่งโมเดลได้อธิบายว่าการวางตัวของดาวเสาร์นั้นขึ้นอยู่กับช่วงเวลาของปีและตำแหน่งของกล้องโทรทรรศน์ที่ถ่ายภาพนั้น

Microsoft ได้เปิดให้เข้าถึงโค้ดของโมเดลแล้วบน Hugging Face, GitHub และ Azure

ที่มา: https://siliconangle.com/2026/03/04/microsoft-open-sources-multimodal-reasoning-model-15b-parameters/

About นักเขียนฝึกหัดหมายเลขเก้า

Check Also

[Video] WatchGuard Webinar : Zero Trust Made Simple

ในอดีต การวางระบบ Zero Trust Architecture มักถูกมองว่าเป็น ‘ยาขม’ ของฝ่ายไอทีและองค์กรจำนวนมาก เพราะแนวคิดที่ต้อง ‘ไม่เชื่อใจใคร และต้องตรวจสอบเสมอ’ นั้น มักตามมาด้วยความซับซ้อนยุ่งเหยิงในการบริหารจัดการ ในงาน WatchGuard Webinar ครั้งนี้ท่านจะได้รับชมกับแนวทางที่ทำให้ Zero Trust …

Google ทลายเครือข่ายพร็อกซี NetNut ที่กระจายบนอุปกรณ์กว่า 2 ล้านเครื่อง

Google ได้เข้าสกัดกั้นเครือข่าย NetNut ซึ่งเป็นหนึ่งในเครือข่ายพร็อกซีที่อยู่อาศัย (residential proxy network) ที่ใหญ่ที่สุดที่ยังเปิดให้บริการอยู่ ส่งผลให้บริการที่เคยเปลี่ยนอุปกรณ์ตามบ้านเรือนกว่า 2 ล้านเครื่องทั่วโลกให้กลายเป็นจุดส่งต่อทราฟฟิกอินเทอร์เน็ตของผู้อื่นต้องหยุดชะงักลง