Microsoft ปล่อยโมเดลภาษาขนาดเล็ก Phi-4 เป็นโอเพนซอร์สแล้ว

Microsoft ได้เผยแพร่โค้ดของ Phi-4 ซึ่งเป็นโมเดลภาษาขนาดเล็กที่สามารถสร้างข้อความและแก้ปัญหาคณิตศาสตร์ได้ ทำให้ Phi-4 เข้าร่วมกลุ่มโมเดลภาษาโอเพนซอร์สขนาดเล็กจากบริษัทเทคโนโลยีรายใหญ่ที่กำลังเติบโตขึ้นเรื่อย ๆ โดยสามารถดาวน์โหลดได้แล้วผ่าน Hugging Face

Credit: Microsoft

Phi-4 เป็นเวอร์ชันที่สี่ในซีรีส์โมเดลภาษาขนาดเล็กที่ Microsoft เปิดตัวครั้งแรกในปี 2023 โดยมีพารามิเตอร์จำนวน 14 พันล้านตัว ซึ่งเป็นค่ากำหนดที่ใช้ในการประมวลผลข้อมูลของโครงข่ายประสาทเทียม ทีมวิจัยของ Microsoft ได้เทรน Phi-4 ด้วยหน่วยประมวลผลกราฟิก H100 จำนวน 1,920 ตัวจาก Nvidia เป็นเวลา 21 วัน

โมเดลนี้อิงตามสถาปัตยกรรม Transformer ซึ่งเป็นมาตรฐานในอุตสาหกรรมและเป็นพื้นฐานของโมเดลภาษาขนาดใหญ่ส่วนใหญ่ เมื่อโมเดลได้รับคำสั่งจากผู้ใช้งานก็จะวิเคราะห์คำในคำสั่งและความหมายโดยอ้างอิงจากข้อความรอบข้าง และเน้นส่วนที่มีความเกี่ยวข้องมากที่สุด

Phi-4 ใช้รูปแบบเฉพาะของสถาปัตยกรรม Transformer ที่เรียกว่า “decoder-only” โดยโมเดลประเภทนี้จะเน้นวิเคราะห์เฉพาะข้อความก่อนหน้าคำที่กำหนดโดยไม่สนใจข้อความที่ตามมา ซึ่งช่วยลดปริมาณข้อมูลที่ต้องประมวลผลและลดต้นทุนการใช้งาน

ในงานวิจัย Microsoft ระบุว่าได้ปรับปรุงคุณภาพผลลัพธ์ของ Phi-4 ด้วยเทคนิคการปรับแต่งหลังการเทรนสองวิธี ได้แก่ direct preference optimization และ supervised fine-tuning ทั้งสองวิธีนี้ใช้การป้อนตัวอย่างที่อธิบายว่าควรตอบสนองต่อคำสั่งอย่างไรให้กับโมเดล

Microsoft ได้ทำการประเมิน Phi-4 โดยเปรียบเทียบกับ Llama 3.3 70B ซึ่งเป็นโมเดลขนาดใหญ่ที่มีพารามิเตอร์มากกว่า 5 เท่า และระบุว่า Phi-4 แสดงผลลัพธ์ได้ดีกว่าในเกณฑ์ GPQA และ MATH ซึ่งเป็นชุดข้อมูลทดสอบที่เกี่ยวข้องกับคำถามด้านวิทยาศาสตร์และปัญหาคณิตศาสตร์

ทั้งนี้ ในเดือนกุมภาพันธ์ Google ได้เปิดตัวโมเดลภาษาขนาดเล็กในซีรีส์ที่ชื่อว่า Gemma โดยมีพารามิเตอร์ตั้งแต่ 2 พันล้านถึง 27 พันล้านตัว ซึ่ง Google ระบุว่าเวอร์ชันที่มีพารามิเตอร์ 27 พันล้านตัวสามารถทำงานได้ดีกว่าโมเดลที่มีขนาดใหญ่กว่าสองเท่า และไม่นานมานี้ Meta ก็ได้เปิดตัวโมเดล Llama 3.2 สองเวอร์ชันที่มีพารามิเตอร์ต่ำกว่า 5 พันล้านตัว และตามมาด้วยการปล่อยเวอร์ชันที่มีประสิทธิภาพยิ่งขึ้นซึ่งใช้เทคนิคที่เรียกว่า quantification กระบวนการบีบอัดข้อมูลที่โมเดลต้องประมวลผลเพื่อลดความต้องการฮาร์ดแวร์ให้เป็นโอเพนซอร์ส

ที่มา: https://siliconangle.com/2025/01/08/microsoft-open-sources-phi-4-small-language-model/

About นักเขียนฝึกหัดหมายเลขเก้า

Check Also

พบช่องโหว่ใน Kubernetes ที่อาจถูกใช้ยึดควบคุม Windows Node

พบช่องโหว่ใน Kubernetes ที่อาจถูกใช้ยึดควบคุม Windows Node ทั้งหมดในคลัสเตอร์

SonicWall เตือนช่องโหว่ Zero-day ใน SMA 1000 ให้ผู้ใช้อัปเดตด่วน!

พบการโจมตีในโซลูชัน SonicWall SMA 1000 Appliance Management Console (AMC) และ Central Management Console (CMC) ที่เป็นโซลูชันสำหรับรวมศูนย์การบริหารจัดการ โดยช่องโหว่มีความร้ายแรงที่ …