Google เคลม LLM เบอร์ 1 แต่ Benchmark ไม่ได้เป็นทุกอย่างในการตัดสิน

แม้ว่าโมเดลจะมีประสิทธิภาพที่ดี แต่เรื่อง Responsible AI ก็เป็นสิ่งที่สำคัญมาก ล่าสุด Google ได้ปล่อยโมเดล LLM ที่อยู่ในระหว่างการทดสอบใหม่ล่าสุดในชื่อ “Gemini-Exp-1114” ที่ Benchmark แล้วได้คะแนนทะยานขึ้นเป็นอันดับที่ 1 แต่อาจจะไม่สามารถนำมาใช้งานได้จริง

Google ได้ปล่อยโมเดล LLM ที่อยู่ในระหว่างการทดสอบล่าสุดภายใต้ชื่อ “Gemini-Exp-1114” ซึ่งปัจจุบันมีให้ทดลองใช้งานได้ผ่าน Google AI Studio เท่านั้นออกมา ซึ่งดูเหมือนว่าประสิทธิภาพทดสอบตาม Benchmark แล้วจะพุ่งทะยานเป็นอันดับที่ 1 เบียด GPT-4o ของ OpenAI ในภาพรวม ขึ้นแทนใน Chatbot Area Leaderboard ไปเป็นที่เรียบร้อย 

โดย Chatbot Arena คือแพลตฟอร์มทดสอบที่มีทั้งเรื่องการคำนวณคณิตศาสตร์ การเขียนงานสร้างสรรค์ การเข้าใจภาพ เป็นต้น ซึ่งได้รายงานผลของโมเดล Gemini ที่อยู่ในระหว่างการทดสอบออกมาได้คะแนนถึง 1344 คะแนน มีพัฒนาการขึ้นมาจากโมเดลก่อนหน้าราว 40 คะแนน

หากแต่ Gemini-Exp-1114 ดูเหมือนจะมีความเสี่ยงในการสร้างเนื้อหาอันตรายออกมาสำหรับผู้ใช้งานได้อย่างมีนัยสำคัญ ซึ่งมีหลายตัวอย่างที่เผยออกมาถึงด้านมืดของโมเดลตัวนี้

 ดังนั้น Benchmark ที่เผยให้เห็นคะแนนสูง ๆ นั้นอาจจะไม่ใช่ทุกอย่างของโมเดลที่สามารถใช้งานได้จริง เพราะยังมีทั้งเรื่องความปลอดภัยของ AI (AI Safety) ความเชื่อถือได้ ความไว้ใจ ฯลฯ อีกหลายมุม ที่รวม ๆ แล้วเรียกว่า Responsible AI ที่ต้องมีความรับผิดชอบต่อสังคม ซึ่งคงต้องติดตามถึงพัฒนาการของโมเดล LLM กันต่อไปว่าจะสามารถปรับเรื่องนี้ได้หรือไม่ และชุดทดสอบจะสามารถวัดในเรื่องดังกล่าวได้ดีขึ้นอย่างไร

ที่มา: https://venturebeat.com/ai/google-gemini-unexpectedly-surges-to-no-1-over-openai-but-benchmarks-dont-tell-the-whole-story/

About chatchai

Tech Writer แห่ง TechTalk Thai ที่สนใจในทุกนวัตกรรมและเทคโนโลยี

Check Also

Salesforce เปิดตัว AI Help Agent ปรับโมเดลคิดเงินรูปแบบใหม่ จ่าย 2 ดอลลาร์เมื่อแก้ปัญหาลูกค้าสำเร็จเท่านั้น

Salesforce ประกาศเปิดตัว Agentforce Help Agent โซลูชัน AI สำหรับงานบริการลูกค้าที่สามารถเชื่อมต่อกับฐานข้อมูลขององค์กร เพื่อให้ความช่วยเหลือผ่านช่องทางดิจิทัลทั้งในรูปแบบข้อความและเสียง โดยมีไฮไลท์สำคัญของการเปิดตัวครั้งนี้คือการนำเสนอโมเดลคิดค่าใช้จ่ายแบบ Pay-per-resolution เป็นครั้งแรก องค์กรจะจ่ายเงินก็ต่อเมื่อ AI สามารถแก้ปัญหาให้ลูกค้าได้สำเร็จตั้งแต่ต้นจนจบแบบอัตโนมัติ

[วีดีโอย้อนหลัง] Tenable Webinar : Securing Your AI, Transformation with AI Exposure

ท่านใดที่พลาดชมงานสัมมนาออนไลน์ของ Tenable ในหัวข้อ “Securing Your AI, Transformation with AI Exposure” ทุกท่านสามารถชมวีดีโอย้อนหลังกันได้อีกครั้งในบทความนี้นะคะ