Microsoft ประกาศเปิดตัวโมเดล AI ตระกูล Phi รุ่นใหม่ล่าสุด ได้แก่ Phi-4-multimodal และ Phi-4-mini ที่ให้ความสามารถด้าน AI ขั้นสูงในรูปแบบโมเดลขนาดเล็ก พร้อมให้บริการแล้วบน Azure AI Foundry, HuggingFace และ NVIDIA API Catalog

Microsoft ได้เปิดตัวโมเดล AI ตระกูล Phi รุ่นใหม่สองรุ่น โดย Phi-4-multimodal เป็นโมเดลขนาด 5.6B พารามิเตอร์ที่ถือเป็นโมเดล Multimodal ตัวแรกของ Microsoft ที่สามารถประมวลผลทั้งคำพูด, ภาพ, และข้อความได้พร้อมกัน โดยใช้เทคนิค mixture-of-LoRAs ที่รวมทุกข้อมูลเข้าด้วยกัน ไม่จำเป็นต้องใช้กระบวนการที่ซับซ้อนหรือโมเดลแยก
ในด้านประสิทธิภาพ Phi-4-multimodal แสดงผลลัพธ์ที่น่าประทับใจในงานที่เกี่ยวข้องกับการพูด โดยเป็นผู้นำในหลายด้าน ทั้งการรู้จำเสียงพูด (ASR) และการแปลภาษาจากเสียงพูด (ST) โดยครองอันดับหนึ่งบน Huggingface OpenASR ด้วยอัตราความผิดพลาดของคำเพียง 6.14% นอกจากนี้ยังแสดงความสามารถโดดเด่นในการทำความเข้าใจเอกสารและการอ่านแผนภูมิ, การรู้จำตัวอักษร (OCR), และการให้เหตุผลจากภาพ
ส่วน Phi-4-mini เป็นโมเดลขนาด 3.8B พารามิเตอร์ที่ออกแบบมาเพื่อความเร็วและประสิทธิภาพ แม้จะมีขนาดเล็กแต่ยังคงให้ประสิทธิภาพสูงกว่าโมเดลขนาดใหญ่ในงานที่ใช้ข้อความ ทั้งการให้เหตุผล, คณิตศาสตร์, การเขียนโค้ด รวมถึงการเรียกใช้ฟังก์ชัน (function-calling) และรองรับลำดับโทเคนได้ถึง 128,000 โทเคน
ที่มา: https://azure.microsoft.com/en-us/blog/empowering-innovation-the-next-generation-of-the-phi-family/