Google เคลม LLM เบอร์ 1 แต่ Benchmark ไม่ได้เป็นทุกอย่างในการตัดสิน

แม้ว่าโมเดลจะมีประสิทธิภาพที่ดี แต่เรื่อง Responsible AI ก็เป็นสิ่งที่สำคัญมาก ล่าสุด Google ได้ปล่อยโมเดล LLM ที่อยู่ในระหว่างการทดสอบใหม่ล่าสุดในชื่อ “Gemini-Exp-1114” ที่ Benchmark แล้วได้คะแนนทะยานขึ้นเป็นอันดับที่ 1 แต่อาจจะไม่สามารถนำมาใช้งานได้จริง

Google ได้ปล่อยโมเดล LLM ที่อยู่ในระหว่างการทดสอบล่าสุดภายใต้ชื่อ “Gemini-Exp-1114” ซึ่งปัจจุบันมีให้ทดลองใช้งานได้ผ่าน Google AI Studio เท่านั้นออกมา ซึ่งดูเหมือนว่าประสิทธิภาพทดสอบตาม Benchmark แล้วจะพุ่งทะยานเป็นอันดับที่ 1 เบียด GPT-4o ของ OpenAI ในภาพรวม ขึ้นแทนใน Chatbot Area Leaderboard ไปเป็นที่เรียบร้อย 

โดย Chatbot Arena คือแพลตฟอร์มทดสอบที่มีทั้งเรื่องการคำนวณคณิตศาสตร์ การเขียนงานสร้างสรรค์ การเข้าใจภาพ เป็นต้น ซึ่งได้รายงานผลของโมเดล Gemini ที่อยู่ในระหว่างการทดสอบออกมาได้คะแนนถึง 1344 คะแนน มีพัฒนาการขึ้นมาจากโมเดลก่อนหน้าราว 40 คะแนน

หากแต่ Gemini-Exp-1114 ดูเหมือนจะมีความเสี่ยงในการสร้างเนื้อหาอันตรายออกมาสำหรับผู้ใช้งานได้อย่างมีนัยสำคัญ ซึ่งมีหลายตัวอย่างที่เผยออกมาถึงด้านมืดของโมเดลตัวนี้

 ดังนั้น Benchmark ที่เผยให้เห็นคะแนนสูง ๆ นั้นอาจจะไม่ใช่ทุกอย่างของโมเดลที่สามารถใช้งานได้จริง เพราะยังมีทั้งเรื่องความปลอดภัยของ AI (AI Safety) ความเชื่อถือได้ ความไว้ใจ ฯลฯ อีกหลายมุม ที่รวม ๆ แล้วเรียกว่า Responsible AI ที่ต้องมีความรับผิดชอบต่อสังคม ซึ่งคงต้องติดตามถึงพัฒนาการของโมเดล LLM กันต่อไปว่าจะสามารถปรับเรื่องนี้ได้หรือไม่ และชุดทดสอบจะสามารถวัดในเรื่องดังกล่าวได้ดีขึ้นอย่างไร

ที่มา: https://venturebeat.com/ai/google-gemini-unexpectedly-surges-to-no-1-over-openai-but-benchmarks-dont-tell-the-whole-story/

About chatchai

Tech Writer แห่ง TechTalk Thai ที่สนใจในทุกนวัตกรรมและเทคโนโลยี

Check Also

Cisco เปิดตัว Cloud Control แพลตฟอร์มรวมศูนย์บริหาร IT Infrastructure ร่วมกับ AI Agent

Cisco เปิดตัว Cloud Control ในงาน Cisco Live 2026 ที่ Las Vegas โดยเป็นแพลตฟอร์มรวมศูนย์ที่ออกแบบมาให้มนุษย์และ AI Agent ทำงานร่วมกันในการบริหาร …

Microsoft AI เปิดตัว 7 โมเดลใหม่ตระกูล MAI พร้อม Frontier Tuning สำหรับองค์กร

Microsoft AI เปิดตัวโมเดล AI ตระกูล MAI จำนวน 7 รุ่น ครอบคลุม Reasoning, Coding, Image, Transcription และ …