Microsoft ปล่อยโมเดลภาษาใหม่ “Phi-4” เก่งแก้โจทย์เลข เทรนด้วยข้อมูลสังเคราะห์เป็นหลัก

Microsoft ได้พัฒนาโมเดลภาษาขนาดเล็ก Phi-4 ที่มีความสามารถในการแก้ปัญหาคณิตศาสตร์บางประเภทได้ดีกว่าอัลกอริทึมที่มีขนาดใหญ่กว่าอย่างมาก เปิดให้ใช้งานผ่านบริการ Azure AI Foundry ของ Microsoft แล้ว และมีกำหนดจะเผยแพร่โค้ดบน Hugging Face เร็ว ๆ นี้

Credit: Microsoft

จุดเด่นของโมเดลดังกล่าวอยู่ที่วิธีการสร้าง โดย Microsoft ใช้ข้อมูลสังเคราะห์ (synthetic data) แทนที่ข้อมูลจริงจากเว็บซึ่งเป็นวิธีการทั่วไปในปัจจุบัน ความสามารถทางคณิตศาสตร์ของ Phi-4 ชี้ให้เห็นว่าการเพิ่มข้อมูลสังเคราะห์ในชุดข้อมูลการเทรนของโมเดลขนาดเล็กอาจช่วยเพิ่มความสามารถในการให้เหตุผลได้ด้วย

Phi-4 เป็นเวอร์ชันที่สี่ในซีรีส์โมเดลภาษาโอเพนซอร์สที่ Microsoft เปิดตัวเมื่อปีที่ผ่านมา โดยมีสถาปัตยกรรมที่เกือบเหมือนกับ Phi-3-medium ซึ่งเป็นเวอร์ชันก่อนหน้า ทั้งสองโมเดลมีพารามิเตอร์ 14 พันล้านตัว และสามารถประมวลผลข้อมูลได้สูงสุด 4,000 โทเคนต่อครั้ง ทว่าหนึ่งในความแตกต่างสำคัญคือ Phi-4 มีตัวแปลงโทเคน (tokenizer) ที่พัฒนาให้ดียิ่งขึ้น ช่วยให้การแยกข้อความเป็นโทเคนเพื่อประมวลผลง่ายขึ้น นอกจากนี้บริษัทยังปรับปรุงกลไกการให้ความสนใจ (attention mechanism) ของ Phi-4 ซึ่งใน Phi-3-medium สามารถพิจารณาข้อมูลได้สูงสุด 2,000 โทเคน แต่ใน Phi-4 สามารถวิเคราะห์ได้ถึง 4,000 โทเคน

อย่างไรก็ตาม นวัตกรรมหลักของ Phi-4 ยังอยู่ที่กระบวนการเทรน โดย Microsoft ใช้ชุดข้อมูลสังเคราะห์กว่า 50 ชุด ซึ่งรวมกันแล้วมีข้อมูลประมาณ 400 พันล้านโทเคน โดยนักวิจัยสร้างข้อมูลเหล่านี้ผ่านกระบวนการหลายขั้นตอนด้วยกัน

ในขั้นตอนแรก Microsoft รวบรวมข้อมูลจากเว็บสาธารณะ ชุดข้อมูลสำหรับเทรน AI ที่มีอยู่ และแหล่งข้อมูลอื่น ๆ รวมถึงคำถามและคำตอบหลายสิบล้านคู่ จากนั้น Microsoft กำจัดคำถามที่พบคำตอบซ้ำ ๆ บนเว็บ เพื่อหลีกเลี่ยงคำถามที่ง่ายเกินไป และคำถามที่ซับซ้อนเกินไปซึ่งคำตอบมีความแตกต่างกันอย่างมาก

บริษัทใช้ไฟล์ชุดแรกเป็นแม่แบบสำหรับสร้างข้อมูลสังเคราะห์ โดยใช้ AI เขียนคำถามทดสอบจากข้อมูลในเว็บ พร้อมสร้างคำตอบและปรับปรุงคำตอบให้ดีขึ้นตามความเหมาะสม นอกจากนี้ ยังมีการใช้โค้ดโอเพนซอร์สเป็นจุดเริ่มต้นในการสร้างคำถามเกี่ยวกับโค้ด และเพิ่มคำถามเหล่านี้ในชุดข้อมูลฝึกของ Phi-4 อีกด้วย

หลังจากสร้างชุดข้อมูลเสร็จแล้ว Microsoft ใช้ระบบตรวจสอบอัตโนมัติเพื่อตรวจสอบความถูกต้อง เช่น การรันโค้ดและทดสอบชุดข้อมูลวิทยาศาสตร์ด้วยคำถามที่ดึงจากเอกสารวิชาการ

เมื่อเสร็จสิ้นการเทรน Microsoft ประเมินคุณภาพผลลัพธ์ของ Phi-4 ผ่านเกณฑ์มาตรฐานกว่า 12 รายการ ซึ่งโมเดลนี้ทำคะแนนได้ดีกว่า Phi-3-medium เกือบทั้งหมด โดยบางเกณฑ์สูงขึ้นกว่า 20% และที่น่าสนใจคือ Phi-4 ยังสามารถทำคะแนนเหนือกว่า GPT-4o และ Llama 3.3 ของ Meta ในสองเกณฑ์มาตรฐาน ได้แก่ GPQA (คำถามหลายตัวเลือกในสาขาวิทยาศาสตร์) และ MATH (โจทย์คณิตศาสตร์) โดย Phi-4 ทำคะแนนเหนือกว่า Llama 3.3 มากกว่า 5% แม้จะมีจำนวนพารามิเตอร์น้อยกว่าถึงห้าเท่า

ที่มา: https://siliconangle.com/2024/12/13/microsoft-releases-phi-4-language-model-trained-mainly-synthetic-data/

About นักเขียนฝึกหัดหมายเลขเก้า

Check Also

Salesforce เข้าซื้อกิจการ Fin มูลค่าราว 3,600 ล้านดอลลาร์ เสริมแกร่ง AI Agent งานบริการลูกค้า

Salesforce ประกาศลงนามข้อตกลงขั้นสุดท้ายเข้าซื้อกิจการ Fin ผู้ให้บริการแพลตฟอร์ม customer agent ในมูลค่าราว 3,600 ล้านดอลลาร์สหรัฐ เพื่อนำเทคโนโลยี AI Agent สำหรับงานบริการลูกค้ามาเสริมความสามารถให้กับ Agentforce

Cisco ออกแพตช์แก้ช่องโหว่ Zero-day บน Catalyst SD-WAN Manager ที่ถูกใช้โจมตียกระดับสิทธิ์เป็น root

Cisco ปล่อยอัปเดตด้านความปลอดภัยแก้ช่องโหว่บน Catalyst SD-WAN Manager (เดิมคือ SD-WAN vManage) หลังพบว่าถูกใช้โจมตีจริงในลักษณะ Zero-day เพื่อยกระดับสิทธิ์เป็น root บนระบบที่ได้รับผลกระทบ