Patronus AI สตาร์ทอัพพัฒนาเครื่องมือสำหรับตรวจจับและแก้ไขปัญหาด้านความน่าเชื่อถือของโมเดลปัญญาประดิษฐ์ขนาดใหญ่ ประกาศเปิดตัวโมเดล AI ขนาดเล็กแต่ทรงพลัง สามารถประเมินและตัดสินความแม่นยำของโมเดลที่ใหญ่กว่ามากได้

Glider เป็นโมเดลภาษาขนาดใหญ่ (LLM) แบบโอเพนซอร์สที่มีพารามิเตอร์ 3.8 พันล้านตัว ออกแบบมาเพื่อเป็นเครื่องมือประเมินผลที่รวดเร็วและยืดหยุ่นสำหรับโมเดล AI ทางภาษา โดยบริษัทกล่าวว่า Glider เป็นโมเดลขนาดเล็กที่สุดในขณะนี้ที่สามารถแสดงประสิทธิภาพเหนือกว่าโมเดลคู่แข่ง เช่น GPT-4o-mini ของ OpenAI ซึ่งเป็นที่นิยมใช้ในการประเมินผล
การประเมินโมเดลภาษาขนาดใหญ่เป็นกระบวนการวัดประสิทธิภาพในการทำงานเฉพาะทาง เช่น การสร้างข้อความ การเข้าใจเนื้อหา และการตอบคำถาม โดยพิจารณาความถูกต้อง ความสมเหตุสมผล และความสอดคล้องกับมาตรฐานที่กำหนด กระบวนการนี้ช่วยให้นักพัฒนา AI เข้าใจจุดแข็งและจุดอ่อนของโมเดลก่อนที่จะเปิดตัวสู่สาธารณะ ซึ่ง Patronus กล่าวว่าเมื่อวิศวกร AI จำเป็นต้องพึ่งพาโมเดล LLM แบบปิด เช่น GPT-4 ในการประเมินผลโมเดลที่ผ่านการเทรนมาล่วงหน้า ก็มักเผชิญกับปัญหาอย่างต้นทุนที่สูงและความไม่โปร่งใส Glider จึงเข้ามาช่วยแก้ปัญหานี้ผ่านโซลูชัน “LLM-as-a-judge” ที่เล็กแต่เข้าใจง่าย ด้วยคะแนนการประเมินแบบเรียลไทม์พร้อมอธิบายเหตุผล นอกจากนี้ ขนาดที่เล็กของ Glider ยังช่วยให้สามารถทำงานได้บนเซิร์ฟเวอร์ภายในองค์กรหรืออุปกรณ์ในพื้นที่ ทำให้บริษัทไม่จำเป็นต้องส่งข้อมูลสำคัญไปยังบุคคลที่สามอีกด้วย
การประเมินผลของ Glider ให้เหตุผลในรูปแบบของรายการหัวข้อย่อยที่เข้าใจง่าย เพิ่มเติมจากคะแนนมาตรฐานสำหรับแต่ละเกณฑ์ ช่วยให้นักพัฒนาทราบถึงเหตุผลเบื้องหลังของคะแนนและเข้าใจบริบทที่เกี่ยวข้อง โดยโมเดลนี้ได้รับการเทรนจากเกณฑ์การประเมินในโลกจริงถึง 183 เกณฑ์ ครอบคลุม 685 หัวข้อ ช่วยให้สามารถประเมินงานที่ต้องการความถูกต้องทางข้อเท็จจริงและเกณฑ์วัดแบบมนุษย์ เช่น ความลื่นไหลของภาษาและความสอดคล้อง ทำให้ Glider มีความสามารถรอบด้านสำหรับการใช้งานทั้งเชิงสร้างสรรค์และธุรกิจ นอกจากนี้ ระบบการตัดสินของ Glider ยังไม่ได้ประเมินเพียงผลลัพธ์จากโมเดลเท่านั้น แต่ยังรวมถึงข้อมูลที่ผู้ใช้ป้อนเข้าไป บริบท เมทาดาต้า และอื่น ๆ
ที่มา: https://siliconangle.com/2024/12/19/patronus-ai-releases-glider-small-high-performance-ai-evaluator-model-models/