Google เคลม LLM เบอร์ 1 แต่ Benchmark ไม่ได้เป็นทุกอย่างในการตัดสิน

แม้ว่าโมเดลจะมีประสิทธิภาพที่ดี แต่เรื่อง Responsible AI ก็เป็นสิ่งที่สำคัญมาก ล่าสุด Google ได้ปล่อยโมเดล LLM ที่อยู่ในระหว่างการทดสอบใหม่ล่าสุดในชื่อ “Gemini-Exp-1114” ที่ Benchmark แล้วได้คะแนนทะยานขึ้นเป็นอันดับที่ 1 แต่อาจจะไม่สามารถนำมาใช้งานได้จริง

Google ได้ปล่อยโมเดล LLM ที่อยู่ในระหว่างการทดสอบล่าสุดภายใต้ชื่อ “Gemini-Exp-1114” ซึ่งปัจจุบันมีให้ทดลองใช้งานได้ผ่าน Google AI Studio เท่านั้นออกมา ซึ่งดูเหมือนว่าประสิทธิภาพทดสอบตาม Benchmark แล้วจะพุ่งทะยานเป็นอันดับที่ 1 เบียด GPT-4o ของ OpenAI ในภาพรวม ขึ้นแทนใน Chatbot Area Leaderboard ไปเป็นที่เรียบร้อย 

โดย Chatbot Arena คือแพลตฟอร์มทดสอบที่มีทั้งเรื่องการคำนวณคณิตศาสตร์ การเขียนงานสร้างสรรค์ การเข้าใจภาพ เป็นต้น ซึ่งได้รายงานผลของโมเดล Gemini ที่อยู่ในระหว่างการทดสอบออกมาได้คะแนนถึง 1344 คะแนน มีพัฒนาการขึ้นมาจากโมเดลก่อนหน้าราว 40 คะแนน

หากแต่ Gemini-Exp-1114 ดูเหมือนจะมีความเสี่ยงในการสร้างเนื้อหาอันตรายออกมาสำหรับผู้ใช้งานได้อย่างมีนัยสำคัญ ซึ่งมีหลายตัวอย่างที่เผยออกมาถึงด้านมืดของโมเดลตัวนี้

 ดังนั้น Benchmark ที่เผยให้เห็นคะแนนสูง ๆ นั้นอาจจะไม่ใช่ทุกอย่างของโมเดลที่สามารถใช้งานได้จริง เพราะยังมีทั้งเรื่องความปลอดภัยของ AI (AI Safety) ความเชื่อถือได้ ความไว้ใจ ฯลฯ อีกหลายมุม ที่รวม ๆ แล้วเรียกว่า Responsible AI ที่ต้องมีความรับผิดชอบต่อสังคม ซึ่งคงต้องติดตามถึงพัฒนาการของโมเดล LLM กันต่อไปว่าจะสามารถปรับเรื่องนี้ได้หรือไม่ และชุดทดสอบจะสามารถวัดในเรื่องดังกล่าวได้ดีขึ้นอย่างไร

ที่มา: https://venturebeat.com/ai/google-gemini-unexpectedly-surges-to-no-1-over-openai-but-benchmarks-dont-tell-the-whole-story/

About chatchai

Tech Writer แห่ง TechTalk Thai ที่สนใจในทุกนวัตกรรมและเทคโนโลยี

Check Also

Elastic 9.4 ออกแล้ว

Elastic ได้ออกมาประกาศเปิดตัว Elastic 9.4 อย่างเป็นทางการ โดยเพิ่มความสามารถในการตรวจสอบการทำงานของ Context Engineering, Application และ Infrastructure เพิ่มเติม, เสริม AI ในการรักษาความมั่นคงปลอดภัย และเพิ่มความสามารถอื่นๆ อีกมากมาย ดังนี้

VMware เปิดตัว VCF 9.1 ยกระดับ Private Cloud เพิ่มความคุ้มค่าและความปลอดภัย ตอบโจทย์ยุค AI

VMware ได้ประกาศเปิดตัว VMware Cloud Foundation หรือ VCF 9.1 อย่างเป็นทางการ หวังยกระดับ Private Cloud ให้เป็นแพลตฟอร์มที่บริหารจัดการได้ง่าย คุ้มค่าต่อการลงทุน และมาพร้อมกับระบบรักษาความปลอดภัยที่แข็งแกร่งตั้งแต่ระดับโครงสร้างพื้นฐาน …