Patronus เปิดตัว Glider โมเดล AI ขนาดเล็กทรงพลังสำหรับประเมินความแม่นยำ LLM

Patronus AI สตาร์ทอัพพัฒนาเครื่องมือสำหรับตรวจจับและแก้ไขปัญหาด้านความน่าเชื่อถือของโมเดลปัญญาประดิษฐ์ขนาดใหญ่ ประกาศเปิดตัวโมเดล AI ขนาดเล็กแต่ทรงพลัง สามารถประเมินและตัดสินความแม่นยำของโมเดลที่ใหญ่กว่ามากได้

Credit: Patronus

Glider เป็นโมเดลภาษาขนาดใหญ่ (LLM) แบบโอเพนซอร์สที่มีพารามิเตอร์ 3.8 พันล้านตัว ออกแบบมาเพื่อเป็นเครื่องมือประเมินผลที่รวดเร็วและยืดหยุ่นสำหรับโมเดล AI ทางภาษา โดยบริษัทกล่าวว่า Glider เป็นโมเดลขนาดเล็กที่สุดในขณะนี้ที่สามารถแสดงประสิทธิภาพเหนือกว่าโมเดลคู่แข่ง เช่น GPT-4o-mini ของ OpenAI ซึ่งเป็นที่นิยมใช้ในการประเมินผล

การประเมินโมเดลภาษาขนาดใหญ่เป็นกระบวนการวัดประสิทธิภาพในการทำงานเฉพาะทาง เช่น การสร้างข้อความ การเข้าใจเนื้อหา และการตอบคำถาม โดยพิจารณาความถูกต้อง ความสมเหตุสมผล และความสอดคล้องกับมาตรฐานที่กำหนด กระบวนการนี้ช่วยให้นักพัฒนา AI เข้าใจจุดแข็งและจุดอ่อนของโมเดลก่อนที่จะเปิดตัวสู่สาธารณะ ซึ่ง Patronus กล่าวว่าเมื่อวิศวกร AI จำเป็นต้องพึ่งพาโมเดล LLM แบบปิด เช่น GPT-4 ในการประเมินผลโมเดลที่ผ่านการเทรนมาล่วงหน้า ก็มักเผชิญกับปัญหาอย่างต้นทุนที่สูงและความไม่โปร่งใส Glider จึงเข้ามาช่วยแก้ปัญหานี้ผ่านโซลูชัน “LLM-as-a-judge” ที่เล็กแต่เข้าใจง่าย ด้วยคะแนนการประเมินแบบเรียลไทม์พร้อมอธิบายเหตุผล นอกจากนี้ ขนาดที่เล็กของ Glider ยังช่วยให้สามารถทำงานได้บนเซิร์ฟเวอร์ภายในองค์กรหรืออุปกรณ์ในพื้นที่ ทำให้บริษัทไม่จำเป็นต้องส่งข้อมูลสำคัญไปยังบุคคลที่สามอีกด้วย

การประเมินผลของ Glider ให้เหตุผลในรูปแบบของรายการหัวข้อย่อยที่เข้าใจง่าย เพิ่มเติมจากคะแนนมาตรฐานสำหรับแต่ละเกณฑ์ ช่วยให้นักพัฒนาทราบถึงเหตุผลเบื้องหลังของคะแนนและเข้าใจบริบทที่เกี่ยวข้อง โดยโมเดลนี้ได้รับการเทรนจากเกณฑ์การประเมินในโลกจริงถึง 183 เกณฑ์ ครอบคลุม 685 หัวข้อ ช่วยให้สามารถประเมินงานที่ต้องการความถูกต้องทางข้อเท็จจริงและเกณฑ์วัดแบบมนุษย์ เช่น ความลื่นไหลของภาษาและความสอดคล้อง ทำให้ Glider มีความสามารถรอบด้านสำหรับการใช้งานทั้งเชิงสร้างสรรค์และธุรกิจ นอกจากนี้ ระบบการตัดสินของ Glider ยังไม่ได้ประเมินเพียงผลลัพธ์จากโมเดลเท่านั้น แต่ยังรวมถึงข้อมูลที่ผู้ใช้ป้อนเข้าไป บริบท เมทาดาต้า และอื่น ๆ

ที่มา: https://siliconangle.com/2024/12/19/patronus-ai-releases-glider-small-high-performance-ai-evaluator-model-models/

About นักเขียนฝึกหัดหมายเลขเก้า

Check Also

Elastic 9.4 ออกแล้ว

Elastic ได้ออกมาประกาศเปิดตัว Elastic 9.4 อย่างเป็นทางการ โดยเพิ่มความสามารถในการตรวจสอบการทำงานของ Context Engineering, Application และ Infrastructure เพิ่มเติม, เสริม AI ในการรักษาความมั่นคงปลอดภัย และเพิ่มความสามารถอื่นๆ อีกมากมาย ดังนี้

VMware เปิดตัว VCF 9.1 ยกระดับ Private Cloud เพิ่มความคุ้มค่าและความปลอดภัย ตอบโจทย์ยุค AI

VMware ได้ประกาศเปิดตัว VMware Cloud Foundation หรือ VCF 9.1 อย่างเป็นทางการ หวังยกระดับ Private Cloud ให้เป็นแพลตฟอร์มที่บริหารจัดการได้ง่าย คุ้มค่าต่อการลงทุน และมาพร้อมกับระบบรักษาความปลอดภัยที่แข็งแกร่งตั้งแต่ระดับโครงสร้างพื้นฐาน …