Microsoft ปล่อยโมเดลภาษาใหม่ “Phi-4” เก่งแก้โจทย์เลข เทรนด้วยข้อมูลสังเคราะห์เป็นหลัก

December 16, 2024 AI, Cloud and Systems, Microsoft, Products

Microsoft ได้พัฒนาโมเดลภาษาขนาดเล็ก Phi-4 ที่มีความสามารถในการแก้ปัญหาคณิตศาสตร์บางประเภทได้ดีกว่าอัลกอริทึมที่มีขนาดใหญ่กว่าอย่างมาก เปิดให้ใช้งานผ่านบริการ Azure AI Foundry ของ Microsoft แล้ว และมีกำหนดจะเผยแพร่โค้ดบน Hugging Face เร็ว ๆ นี้

จุดเด่นของโมเดลดังกล่าวอยู่ที่วิธีการสร้าง โดย Microsoft ใช้ข้อมูลสังเคราะห์ (synthetic data) แทนที่ข้อมูลจริงจากเว็บซึ่งเป็นวิธีการทั่วไปในปัจจุบัน ความสามารถทางคณิตศาสตร์ของ Phi-4 ชี้ให้เห็นว่าการเพิ่มข้อมูลสังเคราะห์ในชุดข้อมูลการเทรนของโมเดลขนาดเล็กอาจช่วยเพิ่มความสามารถในการให้เหตุผลได้ด้วย

Phi-4 เป็นเวอร์ชันที่สี่ในซีรีส์โมเดลภาษาโอเพนซอร์สที่ Microsoft เปิดตัวเมื่อปีที่ผ่านมา โดยมีสถาปัตยกรรมที่เกือบเหมือนกับ Phi-3-medium ซึ่งเป็นเวอร์ชันก่อนหน้า ทั้งสองโมเดลมีพารามิเตอร์ 14 พันล้านตัว และสามารถประมวลผลข้อมูลได้สูงสุด 4,000 โทเคนต่อครั้ง ทว่าหนึ่งในความแตกต่างสำคัญคือ Phi-4 มีตัวแปลงโทเคน (tokenizer) ที่พัฒนาให้ดียิ่งขึ้น ช่วยให้การแยกข้อความเป็นโทเคนเพื่อประมวลผลง่ายขึ้น นอกจากนี้บริษัทยังปรับปรุงกลไกการให้ความสนใจ (attention mechanism) ของ Phi-4 ซึ่งใน Phi-3-medium สามารถพิจารณาข้อมูลได้สูงสุด 2,000 โทเคน แต่ใน Phi-4 สามารถวิเคราะห์ได้ถึง 4,000 โทเคน

อย่างไรก็ตาม นวัตกรรมหลักของ Phi-4 ยังอยู่ที่กระบวนการเทรน โดย Microsoft ใช้ชุดข้อมูลสังเคราะห์กว่า 50 ชุด ซึ่งรวมกันแล้วมีข้อมูลประมาณ 400 พันล้านโทเคน โดยนักวิจัยสร้างข้อมูลเหล่านี้ผ่านกระบวนการหลายขั้นตอนด้วยกัน

ในขั้นตอนแรก Microsoft รวบรวมข้อมูลจากเว็บสาธารณะ ชุดข้อมูลสำหรับเทรน AI ที่มีอยู่ และแหล่งข้อมูลอื่น ๆ รวมถึงคำถามและคำตอบหลายสิบล้านคู่ จากนั้น Microsoft กำจัดคำถามที่พบคำตอบซ้ำ ๆ บนเว็บ เพื่อหลีกเลี่ยงคำถามที่ง่ายเกินไป และคำถามที่ซับซ้อนเกินไปซึ่งคำตอบมีความแตกต่างกันอย่างมาก

บริษัทใช้ไฟล์ชุดแรกเป็นแม่แบบสำหรับสร้างข้อมูลสังเคราะห์ โดยใช้ AI เขียนคำถามทดสอบจากข้อมูลในเว็บ พร้อมสร้างคำตอบและปรับปรุงคำตอบให้ดีขึ้นตามความเหมาะสม นอกจากนี้ ยังมีการใช้โค้ดโอเพนซอร์สเป็นจุดเริ่มต้นในการสร้างคำถามเกี่ยวกับโค้ด และเพิ่มคำถามเหล่านี้ในชุดข้อมูลฝึกของ Phi-4 อีกด้วย

หลังจากสร้างชุดข้อมูลเสร็จแล้ว Microsoft ใช้ระบบตรวจสอบอัตโนมัติเพื่อตรวจสอบความถูกต้อง เช่น การรันโค้ดและทดสอบชุดข้อมูลวิทยาศาสตร์ด้วยคำถามที่ดึงจากเอกสารวิชาการ

เมื่อเสร็จสิ้นการเทรน Microsoft ประเมินคุณภาพผลลัพธ์ของ Phi-4 ผ่านเกณฑ์มาตรฐานกว่า 12 รายการ ซึ่งโมเดลนี้ทำคะแนนได้ดีกว่า Phi-3-medium เกือบทั้งหมด โดยบางเกณฑ์สูงขึ้นกว่า 20% และที่น่าสนใจคือ Phi-4 ยังสามารถทำคะแนนเหนือกว่า GPT-4o และ Llama 3.3 ของ Meta ในสองเกณฑ์มาตรฐาน ได้แก่ GPQA (คำถามหลายตัวเลือกในสาขาวิทยาศาสตร์) และ MATH (โจทย์คณิตศาสตร์) โดย Phi-4 ทำคะแนนเหนือกว่า Llama 3.3 มากกว่า 5% แม้จะมีจำนวนพารามิเตอร์น้อยกว่าถึงห้าเท่า

ที่มา: https://siliconangle.com/2024/12/13/microsoft-releases-phi-4-language-model-trained-mainly-synthetic-data/

[Video Webinar] AskMe AI Gateway – รวม AI ชั้นนำไว้ในแพลตฟอร์มเดียว พร้อมความปลอดภัยที่องค์กรไว้วางใจ

สำหรับผู้ที่ไม่ได้เข้าฟังการบรรยาย AskMe AI Gateway Webinar เพื่อทำความรู้จักกับแพลตฟอร์ม AI เฉพาะสำหรับองค์กรที่ช่วยให้พนักงานเข้าถึง AI ชั้นนำได้อย่างปลอดภัย พร้อมควบคุมสิทธิ์ ข้อมูล ค่าใช้จ่าย และตรวจสอบได้ครบในที่เดียว ที่เพิ่งจัดไปเมื่อสัปดาห์ที่ผ่านมา …

Dell Technologies ปรับโฉมใหม่ Dell Pro รุกตลาด AI กรุยทางสู่อนาคตการใช้งานระดับองค์กร

เทรนด์ของ AI PCs กำลังมีบทบาทมากขึ้นในปัจจุบัน ซึ่ง IDC คาดการณ์ว่าความต้องการของ AI PCs จะมีแต่ถูกเร่งขึ้นเรื่อยๆ เพราะ AI ได้แทรกเข้าไปในแทบทุกส่วนของการทำงาน ไม่ว่าจะเป็นการประชุม การสร้างคอนเท้นต์ …

TechTalkThai ศูนย์รวมข่าว Enterprise IT ออนไลน์แห่งแรกในประเทศไทย

Microsoft ปล่อยโมเดลภาษาใหม่ “Phi-4” เก่งแก้โจทย์เลข เทรนด้วยข้อมูลสังเคราะห์เป็นหลัก

About นักเขียนฝึกหัดหมายเลขเก้า

Related Articles

Check Also

[Video Webinar] AskMe AI Gateway – รวม AI ชั้นนำไว้ในแพลตฟอร์มเดียว พร้อมความปลอดภัยที่องค์กรไว้วางใจ

Dell Technologies ปรับโฉมใหม่ Dell Pro รุกตลาด AI กรุยทางสู่อนาคตการใช้งานระดับองค์กร

Microsoft ปล่อยโมเดลภาษาใหม่ “Phi-4” เก่งแก้โจทย์เลข เทรนด้วยข้อมูลสังเคราะห์เป็นหลัก

Share this:

About นักเขียนฝึกหัดหมายเลขเก้า

Related Articles

Check Also