Google เคลม LLM เบอร์ 1 แต่ Benchmark ไม่ได้เป็นทุกอย่างในการตัดสิน

แม้ว่าโมเดลจะมีประสิทธิภาพที่ดี แต่เรื่อง Responsible AI ก็เป็นสิ่งที่สำคัญมาก ล่าสุด Google ได้ปล่อยโมเดล LLM ที่อยู่ในระหว่างการทดสอบใหม่ล่าสุดในชื่อ “Gemini-Exp-1114” ที่ Benchmark แล้วได้คะแนนทะยานขึ้นเป็นอันดับที่ 1 แต่อาจจะไม่สามารถนำมาใช้งานได้จริง

Google ได้ปล่อยโมเดล LLM ที่อยู่ในระหว่างการทดสอบล่าสุดภายใต้ชื่อ “Gemini-Exp-1114” ซึ่งปัจจุบันมีให้ทดลองใช้งานได้ผ่าน Google AI Studio เท่านั้นออกมา ซึ่งดูเหมือนว่าประสิทธิภาพทดสอบตาม Benchmark แล้วจะพุ่งทะยานเป็นอันดับที่ 1 เบียด GPT-4o ของ OpenAI ในภาพรวม ขึ้นแทนใน Chatbot Area Leaderboard ไปเป็นที่เรียบร้อย 

โดย Chatbot Arena คือแพลตฟอร์มทดสอบที่มีทั้งเรื่องการคำนวณคณิตศาสตร์ การเขียนงานสร้างสรรค์ การเข้าใจภาพ เป็นต้น ซึ่งได้รายงานผลของโมเดล Gemini ที่อยู่ในระหว่างการทดสอบออกมาได้คะแนนถึง 1344 คะแนน มีพัฒนาการขึ้นมาจากโมเดลก่อนหน้าราว 40 คะแนน

หากแต่ Gemini-Exp-1114 ดูเหมือนจะมีความเสี่ยงในการสร้างเนื้อหาอันตรายออกมาสำหรับผู้ใช้งานได้อย่างมีนัยสำคัญ ซึ่งมีหลายตัวอย่างที่เผยออกมาถึงด้านมืดของโมเดลตัวนี้

 ดังนั้น Benchmark ที่เผยให้เห็นคะแนนสูง ๆ นั้นอาจจะไม่ใช่ทุกอย่างของโมเดลที่สามารถใช้งานได้จริง เพราะยังมีทั้งเรื่องความปลอดภัยของ AI (AI Safety) ความเชื่อถือได้ ความไว้ใจ ฯลฯ อีกหลายมุม ที่รวม ๆ แล้วเรียกว่า Responsible AI ที่ต้องมีความรับผิดชอบต่อสังคม ซึ่งคงต้องติดตามถึงพัฒนาการของโมเดล LLM กันต่อไปว่าจะสามารถปรับเรื่องนี้ได้หรือไม่ และชุดทดสอบจะสามารถวัดในเรื่องดังกล่าวได้ดีขึ้นอย่างไร

ที่มา: https://venturebeat.com/ai/google-gemini-unexpectedly-surges-to-no-1-over-openai-but-benchmarks-dont-tell-the-whole-story/

About chatchai

Tech Writer แห่ง TechTalk Thai ที่สนใจในทุกนวัตกรรมและเทคโนโลยี

Check Also

VirtualBox 7.1.6 พร้อมเริ่มสนับสนุน Linux Kernel 6.13 แล้ว

Oracle ได้ปล่อย VirtualBox 7.1.6 ออกมาเป็น Release ใหม่เรียบร้อย ซึ่งเป็นเวอร์ชันที่จะเริ่มต้นรองรับการสนับสนุน Linux Kernel 6.13 แล้ว ซึ่งจะทำให้ผู้ใช้งานสามารถติดตั้ง VirtualBox บน …

AWS ประกาศขยาย AWS Direct Connect เพิ่มที่ Telehouse Bangkok

ช่วงต้นเดือนที่ผ่านมา AWS ได้ประกาศเปิดตัวที่ตั้งบริการ AWS Direct Connect ใหม่เพิ่มเติมภายใน Telehouse Bangkok ศูนย์ข้อมูล Data Center ที่ตั้งอยู่ในประเทศไทย เพื่อให้บริการเชื่อมโยงโครงข่ายเน็ตเวิร์กมายัง AWS …