Microsoft ปล่อยโมเดลภาษาใหม่ “Phi-4” เก่งแก้โจทย์เลข เทรนด้วยข้อมูลสังเคราะห์เป็นหลัก

Microsoft ได้พัฒนาโมเดลภาษาขนาดเล็ก Phi-4 ที่มีความสามารถในการแก้ปัญหาคณิตศาสตร์บางประเภทได้ดีกว่าอัลกอริทึมที่มีขนาดใหญ่กว่าอย่างมาก เปิดให้ใช้งานผ่านบริการ Azure AI Foundry ของ Microsoft แล้ว และมีกำหนดจะเผยแพร่โค้ดบน Hugging Face เร็ว ๆ นี้

Credit: Microsoft

จุดเด่นของโมเดลดังกล่าวอยู่ที่วิธีการสร้าง โดย Microsoft ใช้ข้อมูลสังเคราะห์ (synthetic data) แทนที่ข้อมูลจริงจากเว็บซึ่งเป็นวิธีการทั่วไปในปัจจุบัน ความสามารถทางคณิตศาสตร์ของ Phi-4 ชี้ให้เห็นว่าการเพิ่มข้อมูลสังเคราะห์ในชุดข้อมูลการเทรนของโมเดลขนาดเล็กอาจช่วยเพิ่มความสามารถในการให้เหตุผลได้ด้วย

Phi-4 เป็นเวอร์ชันที่สี่ในซีรีส์โมเดลภาษาโอเพนซอร์สที่ Microsoft เปิดตัวเมื่อปีที่ผ่านมา โดยมีสถาปัตยกรรมที่เกือบเหมือนกับ Phi-3-medium ซึ่งเป็นเวอร์ชันก่อนหน้า ทั้งสองโมเดลมีพารามิเตอร์ 14 พันล้านตัว และสามารถประมวลผลข้อมูลได้สูงสุด 4,000 โทเคนต่อครั้ง ทว่าหนึ่งในความแตกต่างสำคัญคือ Phi-4 มีตัวแปลงโทเคน (tokenizer) ที่พัฒนาให้ดียิ่งขึ้น ช่วยให้การแยกข้อความเป็นโทเคนเพื่อประมวลผลง่ายขึ้น นอกจากนี้บริษัทยังปรับปรุงกลไกการให้ความสนใจ (attention mechanism) ของ Phi-4 ซึ่งใน Phi-3-medium สามารถพิจารณาข้อมูลได้สูงสุด 2,000 โทเคน แต่ใน Phi-4 สามารถวิเคราะห์ได้ถึง 4,000 โทเคน

อย่างไรก็ตาม นวัตกรรมหลักของ Phi-4 ยังอยู่ที่กระบวนการเทรน โดย Microsoft ใช้ชุดข้อมูลสังเคราะห์กว่า 50 ชุด ซึ่งรวมกันแล้วมีข้อมูลประมาณ 400 พันล้านโทเคน โดยนักวิจัยสร้างข้อมูลเหล่านี้ผ่านกระบวนการหลายขั้นตอนด้วยกัน

ในขั้นตอนแรก Microsoft รวบรวมข้อมูลจากเว็บสาธารณะ ชุดข้อมูลสำหรับเทรน AI ที่มีอยู่ และแหล่งข้อมูลอื่น ๆ รวมถึงคำถามและคำตอบหลายสิบล้านคู่ จากนั้น Microsoft กำจัดคำถามที่พบคำตอบซ้ำ ๆ บนเว็บ เพื่อหลีกเลี่ยงคำถามที่ง่ายเกินไป และคำถามที่ซับซ้อนเกินไปซึ่งคำตอบมีความแตกต่างกันอย่างมาก

บริษัทใช้ไฟล์ชุดแรกเป็นแม่แบบสำหรับสร้างข้อมูลสังเคราะห์ โดยใช้ AI เขียนคำถามทดสอบจากข้อมูลในเว็บ พร้อมสร้างคำตอบและปรับปรุงคำตอบให้ดีขึ้นตามความเหมาะสม นอกจากนี้ ยังมีการใช้โค้ดโอเพนซอร์สเป็นจุดเริ่มต้นในการสร้างคำถามเกี่ยวกับโค้ด และเพิ่มคำถามเหล่านี้ในชุดข้อมูลฝึกของ Phi-4 อีกด้วย

หลังจากสร้างชุดข้อมูลเสร็จแล้ว Microsoft ใช้ระบบตรวจสอบอัตโนมัติเพื่อตรวจสอบความถูกต้อง เช่น การรันโค้ดและทดสอบชุดข้อมูลวิทยาศาสตร์ด้วยคำถามที่ดึงจากเอกสารวิชาการ

เมื่อเสร็จสิ้นการเทรน Microsoft ประเมินคุณภาพผลลัพธ์ของ Phi-4 ผ่านเกณฑ์มาตรฐานกว่า 12 รายการ ซึ่งโมเดลนี้ทำคะแนนได้ดีกว่า Phi-3-medium เกือบทั้งหมด โดยบางเกณฑ์สูงขึ้นกว่า 20% และที่น่าสนใจคือ Phi-4 ยังสามารถทำคะแนนเหนือกว่า GPT-4o และ Llama 3.3 ของ Meta ในสองเกณฑ์มาตรฐาน ได้แก่ GPQA (คำถามหลายตัวเลือกในสาขาวิทยาศาสตร์) และ MATH (โจทย์คณิตศาสตร์) โดย Phi-4 ทำคะแนนเหนือกว่า Llama 3.3 มากกว่า 5% แม้จะมีจำนวนพารามิเตอร์น้อยกว่าถึงห้าเท่า

ที่มา: https://siliconangle.com/2024/12/13/microsoft-releases-phi-4-language-model-trained-mainly-synthetic-data/

About นักเขียนฝึกหัดหมายเลขเก้า

Check Also

เลือก Cloud Infrastructure ที่เหมาะกับการใช้งาน AI ระดับองค์กร [PR]

เมื่อองค์กรเริ่มนำ AI เข้ามาเป็นส่วนสำคัญในการขับเคลื่อนธุรกิจ ความพร้อมของโครงสร้างพื้นฐานจึงกลายเป็นอีกหนึ่งปัจจัยที่ไม่อาจมองข้าม จากรายงานของ McKinsey & Company (2025) ระบุว่า สัดส่วนองค์กรที่นำ AI มาใช้ในการทำงานเพิ่มขึ้นเป็น 88 เปอร์เซ็นต์ …

HPE อัดยาแรง! แจกฟรี VM Essentials 1 ปี พร้อม Zerto 1 ดอลลาร์ ดึงลูกค้า VMware

HPE ใช้จังหวะที่ VMware ปรับขึ้นค่าไลเซนส์ นำเสนอสิทธิพิเศษให้ลูกค้าใช้งานระบบ VM Essentials ฟรี 1 ปีเต็ม พร้อมสิทธิ์ใช้งานซอฟต์แวร์ปกป้องข้อมูล Zerto ในราคาเพียง 1 ดอลลาร์ …