Patronus เปิดตัว Glider โมเดล AI ขนาดเล็กทรงพลังสำหรับประเมินความแม่นยำ LLM

Patronus AI สตาร์ทอัพพัฒนาเครื่องมือสำหรับตรวจจับและแก้ไขปัญหาด้านความน่าเชื่อถือของโมเดลปัญญาประดิษฐ์ขนาดใหญ่ ประกาศเปิดตัวโมเดล AI ขนาดเล็กแต่ทรงพลัง สามารถประเมินและตัดสินความแม่นยำของโมเดลที่ใหญ่กว่ามากได้

Credit: Patronus

Glider เป็นโมเดลภาษาขนาดใหญ่ (LLM) แบบโอเพนซอร์สที่มีพารามิเตอร์ 3.8 พันล้านตัว ออกแบบมาเพื่อเป็นเครื่องมือประเมินผลที่รวดเร็วและยืดหยุ่นสำหรับโมเดล AI ทางภาษา โดยบริษัทกล่าวว่า Glider เป็นโมเดลขนาดเล็กที่สุดในขณะนี้ที่สามารถแสดงประสิทธิภาพเหนือกว่าโมเดลคู่แข่ง เช่น GPT-4o-mini ของ OpenAI ซึ่งเป็นที่นิยมใช้ในการประเมินผล

การประเมินโมเดลภาษาขนาดใหญ่เป็นกระบวนการวัดประสิทธิภาพในการทำงานเฉพาะทาง เช่น การสร้างข้อความ การเข้าใจเนื้อหา และการตอบคำถาม โดยพิจารณาความถูกต้อง ความสมเหตุสมผล และความสอดคล้องกับมาตรฐานที่กำหนด กระบวนการนี้ช่วยให้นักพัฒนา AI เข้าใจจุดแข็งและจุดอ่อนของโมเดลก่อนที่จะเปิดตัวสู่สาธารณะ ซึ่ง Patronus กล่าวว่าเมื่อวิศวกร AI จำเป็นต้องพึ่งพาโมเดล LLM แบบปิด เช่น GPT-4 ในการประเมินผลโมเดลที่ผ่านการเทรนมาล่วงหน้า ก็มักเผชิญกับปัญหาอย่างต้นทุนที่สูงและความไม่โปร่งใส Glider จึงเข้ามาช่วยแก้ปัญหานี้ผ่านโซลูชัน “LLM-as-a-judge” ที่เล็กแต่เข้าใจง่าย ด้วยคะแนนการประเมินแบบเรียลไทม์พร้อมอธิบายเหตุผล นอกจากนี้ ขนาดที่เล็กของ Glider ยังช่วยให้สามารถทำงานได้บนเซิร์ฟเวอร์ภายในองค์กรหรืออุปกรณ์ในพื้นที่ ทำให้บริษัทไม่จำเป็นต้องส่งข้อมูลสำคัญไปยังบุคคลที่สามอีกด้วย

การประเมินผลของ Glider ให้เหตุผลในรูปแบบของรายการหัวข้อย่อยที่เข้าใจง่าย เพิ่มเติมจากคะแนนมาตรฐานสำหรับแต่ละเกณฑ์ ช่วยให้นักพัฒนาทราบถึงเหตุผลเบื้องหลังของคะแนนและเข้าใจบริบทที่เกี่ยวข้อง โดยโมเดลนี้ได้รับการเทรนจากเกณฑ์การประเมินในโลกจริงถึง 183 เกณฑ์ ครอบคลุม 685 หัวข้อ ช่วยให้สามารถประเมินงานที่ต้องการความถูกต้องทางข้อเท็จจริงและเกณฑ์วัดแบบมนุษย์ เช่น ความลื่นไหลของภาษาและความสอดคล้อง ทำให้ Glider มีความสามารถรอบด้านสำหรับการใช้งานทั้งเชิงสร้างสรรค์และธุรกิจ นอกจากนี้ ระบบการตัดสินของ Glider ยังไม่ได้ประเมินเพียงผลลัพธ์จากโมเดลเท่านั้น แต่ยังรวมถึงข้อมูลที่ผู้ใช้ป้อนเข้าไป บริบท เมทาดาต้า และอื่น ๆ

ที่มา: https://siliconangle.com/2024/12/19/patronus-ai-releases-glider-small-high-performance-ai-evaluator-model-models/

About นักเขียนฝึกหัดหมายเลขเก้า

Check Also

NetApp เปิดทดสอบบริการ Backup สำหรับ Google Cloud NetApp Flex service level

NetApp ได้เพิ่มความสามารถ Backup สำหรับกลุ่มผู้ใช้ Google Cloud NetApp ในบริการแบบ Flex

AWS Step Functions ขยายการสนับสนุนเป็น 100,000 ขั้นต่อบัญชี AWS

หากองค์กรใดใช้งานบริการ AWS Step Functions อย่างเข้มข้น ข่าวดีคือทาง AWS ได้ประกาศปรับเพิ่มโควตาจำนวน State Machine หรือ Activity ที่ใช้งานได้จาก 10,000 เป็น …