Patronus เปิดตัว Glider โมเดล AI ขนาดเล็กทรงพลังสำหรับประเมินความแม่นยำ LLM

Patronus AI สตาร์ทอัพพัฒนาเครื่องมือสำหรับตรวจจับและแก้ไขปัญหาด้านความน่าเชื่อถือของโมเดลปัญญาประดิษฐ์ขนาดใหญ่ ประกาศเปิดตัวโมเดล AI ขนาดเล็กแต่ทรงพลัง สามารถประเมินและตัดสินความแม่นยำของโมเดลที่ใหญ่กว่ามากได้

Credit: Patronus

Glider เป็นโมเดลภาษาขนาดใหญ่ (LLM) แบบโอเพนซอร์สที่มีพารามิเตอร์ 3.8 พันล้านตัว ออกแบบมาเพื่อเป็นเครื่องมือประเมินผลที่รวดเร็วและยืดหยุ่นสำหรับโมเดล AI ทางภาษา โดยบริษัทกล่าวว่า Glider เป็นโมเดลขนาดเล็กที่สุดในขณะนี้ที่สามารถแสดงประสิทธิภาพเหนือกว่าโมเดลคู่แข่ง เช่น GPT-4o-mini ของ OpenAI ซึ่งเป็นที่นิยมใช้ในการประเมินผล

การประเมินโมเดลภาษาขนาดใหญ่เป็นกระบวนการวัดประสิทธิภาพในการทำงานเฉพาะทาง เช่น การสร้างข้อความ การเข้าใจเนื้อหา และการตอบคำถาม โดยพิจารณาความถูกต้อง ความสมเหตุสมผล และความสอดคล้องกับมาตรฐานที่กำหนด กระบวนการนี้ช่วยให้นักพัฒนา AI เข้าใจจุดแข็งและจุดอ่อนของโมเดลก่อนที่จะเปิดตัวสู่สาธารณะ ซึ่ง Patronus กล่าวว่าเมื่อวิศวกร AI จำเป็นต้องพึ่งพาโมเดล LLM แบบปิด เช่น GPT-4 ในการประเมินผลโมเดลที่ผ่านการเทรนมาล่วงหน้า ก็มักเผชิญกับปัญหาอย่างต้นทุนที่สูงและความไม่โปร่งใส Glider จึงเข้ามาช่วยแก้ปัญหานี้ผ่านโซลูชัน “LLM-as-a-judge” ที่เล็กแต่เข้าใจง่าย ด้วยคะแนนการประเมินแบบเรียลไทม์พร้อมอธิบายเหตุผล นอกจากนี้ ขนาดที่เล็กของ Glider ยังช่วยให้สามารถทำงานได้บนเซิร์ฟเวอร์ภายในองค์กรหรืออุปกรณ์ในพื้นที่ ทำให้บริษัทไม่จำเป็นต้องส่งข้อมูลสำคัญไปยังบุคคลที่สามอีกด้วย

การประเมินผลของ Glider ให้เหตุผลในรูปแบบของรายการหัวข้อย่อยที่เข้าใจง่าย เพิ่มเติมจากคะแนนมาตรฐานสำหรับแต่ละเกณฑ์ ช่วยให้นักพัฒนาทราบถึงเหตุผลเบื้องหลังของคะแนนและเข้าใจบริบทที่เกี่ยวข้อง โดยโมเดลนี้ได้รับการเทรนจากเกณฑ์การประเมินในโลกจริงถึง 183 เกณฑ์ ครอบคลุม 685 หัวข้อ ช่วยให้สามารถประเมินงานที่ต้องการความถูกต้องทางข้อเท็จจริงและเกณฑ์วัดแบบมนุษย์ เช่น ความลื่นไหลของภาษาและความสอดคล้อง ทำให้ Glider มีความสามารถรอบด้านสำหรับการใช้งานทั้งเชิงสร้างสรรค์และธุรกิจ นอกจากนี้ ระบบการตัดสินของ Glider ยังไม่ได้ประเมินเพียงผลลัพธ์จากโมเดลเท่านั้น แต่ยังรวมถึงข้อมูลที่ผู้ใช้ป้อนเข้าไป บริบท เมทาดาต้า และอื่น ๆ

ที่มา: https://siliconangle.com/2024/12/19/patronus-ai-releases-glider-small-high-performance-ai-evaluator-model-models/

About นักเขียนฝึกหัดหมายเลขเก้า

Check Also

Sonar เข้าซื้อกิจการ Gitar สตาร์ตอัป AI Code Review ยกระดับระบบตรวจสอบโค้ดด้วย Agentic Reasoning

Sonar ผู้ให้บริการแพลตฟอร์มตรวจสอบคุณภาพและความมั่นคงปลอดภัยของโค้ด ประกาศเข้าซื้อกิจการ Gitar สตาร์ตอัปผู้เชี่ยวชาญด้านระบบ AI-native Code Review การเข้าซื้อกิจการครั้งนี้มีเป้าหมายเพื่อผสานความสามารถด้านการคิดวิเคราะห์ของ Gitar เข้ากับเอนจินตรวจสอบโค้ดของ Sonar เพื่อสร้างความมั่นคงปลอดภัยที่รัดกุมยิ่งขึ้นสำหรับทีม DevOps ในยุคที่ …

Stripe ยกระดับระบบชำระเงินสู่โครงสร้างพื้นฐานสำหรับ Machine-to-Machine รับยุค Agentic AI

Stripe เปิดตัวผลิตภัณฑ์ใหม่ 288 รายการ พร้อมส่งแผนพลิกโฉมระบบชำระเงินจากเดิมที่เป็นโครงสร้างพื้นฐานในการทำธุรกรรมสำหรับมนุษย์ ให้กลายเป็นโครงสร้างพื้นฐานที่สามารถตั้งโปรแกรมได้และทำงานอย่างต่อเนื่องเพื่อรองรับธุรกกรรมแบบ Machine-to-Machine ถือเป็นการปูทางเข้าสู่ระบบเศรษฐกิจแบบ Agentic AI อย่างเต็มรูปแบบ