Microsoft เปิดซอร์สโมเดลการใช้เหตุผลแบบมัลติโหมด ขนาด 15 พันล้านพารามิเตอร์

Microsoft ได้เปิดตัว Phi-4-reasoning-vision-15B ซึ่งเป็นโมเดลการใช้เหตุผลที่มีประสิทธิภาพการใช้ฮาร์ดแวร์สูง โดยสามารถประมวลผลไฟล์หลายรูปแบบ เช่น แผนภูมิทางวิทยาศาสตร์ ได้

Credit: Microsoft

โมเดลนี้ใช้พื้นฐานจากอัลกอริทึมที่มีอยู่สองตัว ได้แก่ SigLIP-2 และ Phi-4 Reasoning โดย SigLIP-2 ทำหน้าที่บีบอัดรูปภาพให้อยู่ในรูปแบบตัวเลขที่เครือข่ายประสาทเทียมสามารถเข้าใจได้ ในขณะที่ Phi-4 Reasoning คือโมเดลการใช้เหตุผลที่ Microsoft ได้เปิดซอร์สไปเมื่อเดือนเมษายนที่ผ่านมา

นักวิจัยของบริษัทได้รวมอัลกอริทึมทั้งสองเข้าด้วยกันโดยใช้แนวทางที่เรียกว่า mid-fusion ปกติแล้วโมเดลปัญญาประดิษฐ์จะประกอบด้วยกลุ่มของเซลล์ประสาทเทียมที่เรียกว่า “เลเยอร์” วิศวกรสามารถออกแบบให้ทุกเลเยอร์ของโมเดลมีความสามารถในการประมวลผลข้อมูลแบบมัลติโหมดได้ แต่ในโมเดลแบบ mid-fusion อย่าง Phi-4-reasoning-vision-15B จะมีเพียงบางเลเยอร์เท่านั้นที่รองรับการประมวลผลดังกล่าว การจัดวางในลักษณะนี้เป็นการยอมแลกคุณภาพของผลลัพธ์บางส่วน เพื่อให้สามารถลดการใช้งานฮาร์ดแวร์ลงได้อย่างมาก

Microsoft ระบุว่า ผู้ใช้ยังสามารถลดการใช้โครงสร้างพื้นฐานของโมเดลลงได้อีกด้วยการปิดฟีเจอร์การใช้เหตุผล ซึ่งความสามารถนี้สามารถเปิดหรือปิดได้ผ่านทางพรอมต์

บริษัทฝึกฝน Phi-4-reasoning-vision-15B โดยใช้ข้อมูลโอเพนซอร์สเป็นหลัก ซึ่งรวมถึงรูปภาพและคำอธิบายในรูปแบบข้อความของวัตถุที่ปรากฏในภาพเหล่านั้น ก่อนที่จะเริ่มการฝึกฝน Microsoft ได้ปรับปรุงไฟล์ข้อมูลผ่านกระบวนการหลายขั้นตอน

ในขั้นตอนแรก บริษัทได้คัดแยกชุดข้อมูลคุณภาพสูงที่ไม่จำเป็นต้องแก้ไขออกมา จากนั้นจึงค้นหาชุดไฟล์ที่มีรูปภาพคุณภาพสูงแต่มีคำบรรยายที่ไม่ถูกต้อง นักวิจัยของ Microsoft จึงได้สร้างคำบรรยายใหม่ให้กับรูปภาพเหล่านั้นโดยใช้ GPT-4o และ o4-mini

นอกจากนี้ บริษัทยังได้เพิ่มประสิทธิภาพให้กับไฟล์โอเพนซอร์สที่ปรับปรุงแล้วด้วยข้อมูลการฝึกฝนที่สร้างขึ้นภายใน และ “ข้อมูลคุณภาพสูงจากการเข้าซื้อกิจการที่ตรงเป้าหมาย” ยิ่งไปกว่านั้น ยังมีการเพิ่มตัวอย่างพฤติกรรมที่โมเดลควรหลีกเลี่ยงเข้าไปด้วย ซึ่งชุดข้อมูลส่วนหลังนี้จะช่วยให้ Phi-4-reasoning-vision-15B หลีกเลี่ยงการสร้างผลลัพธ์ที่เป็นอันตราย เพื่อความปลอดภัยและความความมั่นคงปลอดภัยในการใช้งาน

Microsoft ได้เปรียบเทียบอัลกอริทึมนี้กับโมเดลการใช้เหตุผลหลายตัวที่มีขนาดใกล้เคียงกัน โดยใช้ชุดเกณฑ์มาตรฐานแบบโอเพนซอร์ส ผลปรากฏว่า Phi-4-reasoning-vision-15B ทำคะแนนได้สูงกว่า gemma-3-12b-it ของ Google ถึง 17% ใน MathVista_Mini ซึ่งเป็นเกณฑ์มาตรฐานที่ประกอบด้วยคำถามทางคณิตศาสตร์แบบมัลติโหมดนอกจากนี้ โมเดลยังทำคะแนนได้สูงกว่าในการประเมินด้านอื่น ๆ อีกมากกว่าครึ่งโหล

“เรามีประสิทธิภาพที่สามารถแข่งขันได้กับโมเดลที่ช้ากว่ามาก ซึ่งต้องใช้เวลาประมวลผลและโทเคนมากกว่าถึง 10 เท่าหรือมากกว่านั้น และมีความแม่นยำดีกว่าโมเดลที่มีความเร็วใกล้เคียงกัน โดยเฉพาะอย่างยิ่งในเรื่องการใช้เหตุผลทางคณิตศาสตร์และวิทยาศาสตร์” นักวิจัยของ Microsoft เขียนไว้ในบล็อกโพสต์

นักพัฒนาสามารถใช้ Phi-4-reasoning-vision-15B เพื่อสร้างเอเจนต์ AI ที่สามารถโต้ตอบกับแอปพลิเคชันผ่านอินเทอร์เฟซผู้ใช้ได้ โดยโมเดลนี้สามารถวิเคราะห์หน้าที่ขององค์ประกอบต่าง ๆ บนอินเทอร์เฟซจากภาพสกรีนช็อต

“ด้วยการรับรู้ความละเอียดสูงที่แข็งแกร่งและความสามารถในการระบุตำแหน่งอย่างละเอียด Phi-4-reasoning-vision-15B จึงเป็นตัวเลือกที่น่าสนใจในการเป็นโมเดลพื้นฐานสำหรับการฝึกฝนโมเดลเชิงเอเจนต์ เช่น โมเดลที่นำทางผ่านอินเทอร์เฟซบนเดสก์ท็อป เว็บ และมือถือ โดยการระบุและกำหนดตำแหน่งขององค์ประกอบที่โต้ตอบได้ เช่น ปุ่ม เมนู และช่องกรอกข้อความ” นักวิจัยอธิบาย

โมเดลนี้ยังสามารถวิเคราะห์สินทรัพย์ภาพที่ซับซ้อนกว่านั้นได้ เช่น แผนภูมิทางวิทยาศาสตร์ ในการสาธิตที่ Microsoft แชร์ ผู้ใช้ได้อัปโหลดภาพถ่ายของดาวเสาร์และถาม Phi-4-reasoning-vision-15B ว่าทำไมดาวเคราะห์ถึงดูเอียง ซึ่งโมเดลได้อธิบายว่าการวางตัวของดาวเสาร์นั้นขึ้นอยู่กับช่วงเวลาของปีและตำแหน่งของกล้องโทรทรรศน์ที่ถ่ายภาพนั้น

Microsoft ได้เปิดให้เข้าถึงโค้ดของโมเดลแล้วบน Hugging Face, GitHub และ Azure

ที่มา: https://siliconangle.com/2026/03/04/microsoft-open-sources-multimodal-reasoning-model-15b-parameters/

About นักเขียนฝึกหัดหมายเลขเก้า

Check Also

เปิดตัว Proxmox Virtual Environment 9.2 มาพร้อมกับ Dynamic Load Balancer ในตัว

Proxmox Server Solutions ได้ออกมาประกาศเปิดตัว Proxmox Virtual Environment (VE) 9.2 แล้วอย่างเป็นทางการ โดยชูจุดเด่นเรื่องการเสริม Dynamic Load Balancer, การเสริมความสามารถด้าน Software-Defined Networking (SDN) และความสามารถในการรองรับ Custom CPU ได้

Confluent ยกระดับ Real-Time AI ให้ง่ายและปลอดภัย พร้อมรองรับการขยายตัวระดับองค์กร [PR]

Confluent บริษัทในเครือของ IBM และผู้บุกเบิกด้าน Data Streaming ประกาศเปิดตัวฟีเจอร์ใหม่ล่าสุดใน Confluent Intelligence และ Confluent Cloud ที่จะช่วยเพิ่มความคล่องตัวในการพัฒนาและเสริมความปลอดภัยให้กับระบบ AI แบบเรียลไทม์ …