Microsoft ปล่อยโมเดลภาษาใหม่ “Phi-4” เก่งแก้โจทย์เลข เทรนด้วยข้อมูลสังเคราะห์เป็นหลัก

Microsoft ได้พัฒนาโมเดลภาษาขนาดเล็ก Phi-4 ที่มีความสามารถในการแก้ปัญหาคณิตศาสตร์บางประเภทได้ดีกว่าอัลกอริทึมที่มีขนาดใหญ่กว่าอย่างมาก เปิดให้ใช้งานผ่านบริการ Azure AI Foundry ของ Microsoft แล้ว และมีกำหนดจะเผยแพร่โค้ดบน Hugging Face เร็ว ๆ นี้

Credit: Microsoft

จุดเด่นของโมเดลดังกล่าวอยู่ที่วิธีการสร้าง โดย Microsoft ใช้ข้อมูลสังเคราะห์ (synthetic data) แทนที่ข้อมูลจริงจากเว็บซึ่งเป็นวิธีการทั่วไปในปัจจุบัน ความสามารถทางคณิตศาสตร์ของ Phi-4 ชี้ให้เห็นว่าการเพิ่มข้อมูลสังเคราะห์ในชุดข้อมูลการเทรนของโมเดลขนาดเล็กอาจช่วยเพิ่มความสามารถในการให้เหตุผลได้ด้วย

Phi-4 เป็นเวอร์ชันที่สี่ในซีรีส์โมเดลภาษาโอเพนซอร์สที่ Microsoft เปิดตัวเมื่อปีที่ผ่านมา โดยมีสถาปัตยกรรมที่เกือบเหมือนกับ Phi-3-medium ซึ่งเป็นเวอร์ชันก่อนหน้า ทั้งสองโมเดลมีพารามิเตอร์ 14 พันล้านตัว และสามารถประมวลผลข้อมูลได้สูงสุด 4,000 โทเคนต่อครั้ง ทว่าหนึ่งในความแตกต่างสำคัญคือ Phi-4 มีตัวแปลงโทเคน (tokenizer) ที่พัฒนาให้ดียิ่งขึ้น ช่วยให้การแยกข้อความเป็นโทเคนเพื่อประมวลผลง่ายขึ้น นอกจากนี้บริษัทยังปรับปรุงกลไกการให้ความสนใจ (attention mechanism) ของ Phi-4 ซึ่งใน Phi-3-medium สามารถพิจารณาข้อมูลได้สูงสุด 2,000 โทเคน แต่ใน Phi-4 สามารถวิเคราะห์ได้ถึง 4,000 โทเคน

อย่างไรก็ตาม นวัตกรรมหลักของ Phi-4 ยังอยู่ที่กระบวนการเทรน โดย Microsoft ใช้ชุดข้อมูลสังเคราะห์กว่า 50 ชุด ซึ่งรวมกันแล้วมีข้อมูลประมาณ 400 พันล้านโทเคน โดยนักวิจัยสร้างข้อมูลเหล่านี้ผ่านกระบวนการหลายขั้นตอนด้วยกัน

ในขั้นตอนแรก Microsoft รวบรวมข้อมูลจากเว็บสาธารณะ ชุดข้อมูลสำหรับเทรน AI ที่มีอยู่ และแหล่งข้อมูลอื่น ๆ รวมถึงคำถามและคำตอบหลายสิบล้านคู่ จากนั้น Microsoft กำจัดคำถามที่พบคำตอบซ้ำ ๆ บนเว็บ เพื่อหลีกเลี่ยงคำถามที่ง่ายเกินไป และคำถามที่ซับซ้อนเกินไปซึ่งคำตอบมีความแตกต่างกันอย่างมาก

บริษัทใช้ไฟล์ชุดแรกเป็นแม่แบบสำหรับสร้างข้อมูลสังเคราะห์ โดยใช้ AI เขียนคำถามทดสอบจากข้อมูลในเว็บ พร้อมสร้างคำตอบและปรับปรุงคำตอบให้ดีขึ้นตามความเหมาะสม นอกจากนี้ ยังมีการใช้โค้ดโอเพนซอร์สเป็นจุดเริ่มต้นในการสร้างคำถามเกี่ยวกับโค้ด และเพิ่มคำถามเหล่านี้ในชุดข้อมูลฝึกของ Phi-4 อีกด้วย

หลังจากสร้างชุดข้อมูลเสร็จแล้ว Microsoft ใช้ระบบตรวจสอบอัตโนมัติเพื่อตรวจสอบความถูกต้อง เช่น การรันโค้ดและทดสอบชุดข้อมูลวิทยาศาสตร์ด้วยคำถามที่ดึงจากเอกสารวิชาการ

เมื่อเสร็จสิ้นการเทรน Microsoft ประเมินคุณภาพผลลัพธ์ของ Phi-4 ผ่านเกณฑ์มาตรฐานกว่า 12 รายการ ซึ่งโมเดลนี้ทำคะแนนได้ดีกว่า Phi-3-medium เกือบทั้งหมด โดยบางเกณฑ์สูงขึ้นกว่า 20% และที่น่าสนใจคือ Phi-4 ยังสามารถทำคะแนนเหนือกว่า GPT-4o และ Llama 3.3 ของ Meta ในสองเกณฑ์มาตรฐาน ได้แก่ GPQA (คำถามหลายตัวเลือกในสาขาวิทยาศาสตร์) และ MATH (โจทย์คณิตศาสตร์) โดย Phi-4 ทำคะแนนเหนือกว่า Llama 3.3 มากกว่า 5% แม้จะมีจำนวนพารามิเตอร์น้อยกว่าถึงห้าเท่า

ที่มา: https://siliconangle.com/2024/12/13/microsoft-releases-phi-4-language-model-trained-mainly-synthetic-data/

About นักเขียนฝึกหัดหมายเลขเก้า

Check Also

Elastic 9.4 ออกแล้ว

Elastic ได้ออกมาประกาศเปิดตัว Elastic 9.4 อย่างเป็นทางการ โดยเพิ่มความสามารถในการตรวจสอบการทำงานของ Context Engineering, Application และ Infrastructure เพิ่มเติม, เสริม AI ในการรักษาความมั่นคงปลอดภัย และเพิ่มความสามารถอื่นๆ อีกมากมาย ดังนี้

Extreme Networks เปิดตัว Wi-Fi 7 AP รุ่นใหม่ พร้อม Agentic AI สำหรับบริหารจัดการระบบเครือข่ายแบบอัตโนมัติ

Extreme Networks ได้ออกมาประกาศถึงอัปเดตครั้งใหญ่ โดยเปิดตัว Wi-Fi 7 Access Point รุ่นใหม่ล่าสุด 5 รุ่น พร้อมนวัตกรรมใหม่ในการบริหารจัดการระบบเครือข่ายด้วย AI Agent เพื่อดูแลรักษาระบบเครือข่ายขององค์กรให้ทำงานได้อย่างต่อเนื่องโดยอัตโนมัติ