Microsoft ได้เผยแพร่โค้ดของ Phi-4 ซึ่งเป็นโมเดลภาษาขนาดเล็กที่สามารถสร้างข้อความและแก้ปัญหาคณิตศาสตร์ได้ ทำให้ Phi-4 เข้าร่วมกลุ่มโมเดลภาษาโอเพนซอร์สขนาดเล็กจากบริษัทเทคโนโลยีรายใหญ่ที่กำลังเติบโตขึ้นเรื่อย ๆ โดยสามารถดาวน์โหลดได้แล้วผ่าน Hugging Face
Phi-4 เป็นเวอร์ชันที่สี่ในซีรีส์โมเดลภาษาขนาดเล็กที่ Microsoft เปิดตัวครั้งแรกในปี 2023 โดยมีพารามิเตอร์จำนวน 14 พันล้านตัว ซึ่งเป็นค่ากำหนดที่ใช้ในการประมวลผลข้อมูลของโครงข่ายประสาทเทียม ทีมวิจัยของ Microsoft ได้เทรน Phi-4 ด้วยหน่วยประมวลผลกราฟิก H100 จำนวน 1,920 ตัวจาก Nvidia เป็นเวลา 21 วัน
โมเดลนี้อิงตามสถาปัตยกรรม Transformer ซึ่งเป็นมาตรฐานในอุตสาหกรรมและเป็นพื้นฐานของโมเดลภาษาขนาดใหญ่ส่วนใหญ่ เมื่อโมเดลได้รับคำสั่งจากผู้ใช้งานก็จะวิเคราะห์คำในคำสั่งและความหมายโดยอ้างอิงจากข้อความรอบข้าง และเน้นส่วนที่มีความเกี่ยวข้องมากที่สุด
Phi-4 ใช้รูปแบบเฉพาะของสถาปัตยกรรม Transformer ที่เรียกว่า “decoder-only” โดยโมเดลประเภทนี้จะเน้นวิเคราะห์เฉพาะข้อความก่อนหน้าคำที่กำหนดโดยไม่สนใจข้อความที่ตามมา ซึ่งช่วยลดปริมาณข้อมูลที่ต้องประมวลผลและลดต้นทุนการใช้งาน
ในงานวิจัย Microsoft ระบุว่าได้ปรับปรุงคุณภาพผลลัพธ์ของ Phi-4 ด้วยเทคนิคการปรับแต่งหลังการเทรนสองวิธี ได้แก่ direct preference optimization และ supervised fine-tuning ทั้งสองวิธีนี้ใช้การป้อนตัวอย่างที่อธิบายว่าควรตอบสนองต่อคำสั่งอย่างไรให้กับโมเดล
Microsoft ได้ทำการประเมิน Phi-4 โดยเปรียบเทียบกับ Llama 3.3 70B ซึ่งเป็นโมเดลขนาดใหญ่ที่มีพารามิเตอร์มากกว่า 5 เท่า และระบุว่า Phi-4 แสดงผลลัพธ์ได้ดีกว่าในเกณฑ์ GPQA และ MATH ซึ่งเป็นชุดข้อมูลทดสอบที่เกี่ยวข้องกับคำถามด้านวิทยาศาสตร์และปัญหาคณิตศาสตร์
ทั้งนี้ ในเดือนกุมภาพันธ์ Google ได้เปิดตัวโมเดลภาษาขนาดเล็กในซีรีส์ที่ชื่อว่า Gemma โดยมีพารามิเตอร์ตั้งแต่ 2 พันล้านถึง 27 พันล้านตัว ซึ่ง Google ระบุว่าเวอร์ชันที่มีพารามิเตอร์ 27 พันล้านตัวสามารถทำงานได้ดีกว่าโมเดลที่มีขนาดใหญ่กว่าสองเท่า และไม่นานมานี้ Meta ก็ได้เปิดตัวโมเดล Llama 3.2 สองเวอร์ชันที่มีพารามิเตอร์ต่ำกว่า 5 พันล้านตัว และตามมาด้วยการปล่อยเวอร์ชันที่มีประสิทธิภาพยิ่งขึ้นซึ่งใช้เทคนิคที่เรียกว่า quantification กระบวนการบีบอัดข้อมูลที่โมเดลต้องประมวลผลเพื่อลดความต้องการฮาร์ดแวร์ให้เป็นโอเพนซอร์ส
ที่มา: https://siliconangle.com/2025/01/08/microsoft-open-sources-phi-4-small-language-model/