Google เคลม LLM เบอร์ 1 แต่ Benchmark ไม่ได้เป็นทุกอย่างในการตัดสิน

November 18, 2024 AI, Cloud and Systems

แม้ว่าโมเดลจะมีประสิทธิภาพที่ดี แต่เรื่อง Responsible AI ก็เป็นสิ่งที่สำคัญมาก ล่าสุด Google ได้ปล่อยโมเดล LLM ที่อยู่ในระหว่างการทดสอบใหม่ล่าสุดในชื่อ “Gemini-Exp-1114” ที่ Benchmark แล้วได้คะแนนทะยานขึ้นเป็นอันดับที่ 1 แต่อาจจะไม่สามารถนำมาใช้งานได้จริง

Google ได้ปล่อยโมเดล LLM ที่อยู่ในระหว่างการทดสอบล่าสุดภายใต้ชื่อ “Gemini-Exp-1114” ซึ่งปัจจุบันมีให้ทดลองใช้งานได้ผ่าน Google AI Studio เท่านั้นออกมา ซึ่งดูเหมือนว่าประสิทธิภาพทดสอบตาม Benchmark แล้วจะพุ่งทะยานเป็นอันดับที่ 1 เบียด GPT-4o ของ OpenAI ในภาพรวม ขึ้นแทนใน Chatbot Area Leaderboard ไปเป็นที่เรียบร้อย

โดย Chatbot Arena คือแพลตฟอร์มทดสอบที่มีทั้งเรื่องการคำนวณคณิตศาสตร์ การเขียนงานสร้างสรรค์ การเข้าใจภาพ เป็นต้น ซึ่งได้รายงานผลของโมเดล Gemini ที่อยู่ในระหว่างการทดสอบออกมาได้คะแนนถึง 1344 คะแนน มีพัฒนาการขึ้นมาจากโมเดลก่อนหน้าราว 40 คะแนน

หากแต่ Gemini-Exp-1114 ดูเหมือนจะมีความเสี่ยงในการสร้างเนื้อหาอันตรายออกมาสำหรับผู้ใช้งานได้อย่างมีนัยสำคัญ ซึ่งมีหลายตัวอย่างที่เผยออกมาถึงด้านมืดของโมเดลตัวนี้

ดังนั้น Benchmark ที่เผยให้เห็นคะแนนสูง ๆ นั้นอาจจะไม่ใช่ทุกอย่างของโมเดลที่สามารถใช้งานได้จริง เพราะยังมีทั้งเรื่องความปลอดภัยของ AI (AI Safety) ความเชื่อถือได้ ความไว้ใจ ฯลฯ อีกหลายมุม ที่รวม ๆ แล้วเรียกว่า Responsible AI ที่ต้องมีความรับผิดชอบต่อสังคม ซึ่งคงต้องติดตามถึงพัฒนาการของโมเดล LLM กันต่อไปว่าจะสามารถปรับเรื่องนี้ได้หรือไม่ และชุดทดสอบจะสามารถวัดในเรื่องดังกล่าวได้ดีขึ้นอย่างไร

ที่มา: https://venturebeat.com/ai/google-gemini-unexpectedly-surges-to-no-1-over-openai-but-benchmarks-dont-tell-the-whole-story/

Tags benchmark gemini google LLM

About chatchai

Tech Writer แห่ง TechTalk Thai ที่สนใจในทุกนวัตกรรมและเทคโนโลยี

Check Also

การ์ทเนอร์ชี้ เม็ดเงินซอฟต์แวร์แอปพลิเคชันองค์กร 234 พันล้านดอลลาร์ เผชิญความเสี่ยงจาก Agentic AI [PR]

การ์ทเนอร์ อิงก์ บริษัทวิจัยและให้คำปรึกษาชั้นนำด้านธุรกิจและเทคโนโลยี เผยว่า Agentic AI กำลังส่งแรงกระเพื่อมไปยังโมเดลรายได้ของซอฟต์แวร์องค์กร โดยส่งผลให้เม็ดเงินการใช้จ่ายด้านแอปพลิเคชันองค์กรมากถึง 234 พันล้านดอลลาร์สหรัฐฯ ต้องเผชิญกับความเสี่ยงจากภาวะ Agentic Arbitrage ช่วงเวลาระหว่างปัจจุบันไปจนถึงปี พ.ศ. …

Nvidia เปิดตัวโมเดล Cosmos 3 Edge ดัน Physical AI ในญี่ปุ่น

Nvidia ได้เปิดตัว Cosmos 3 Edge ซึ่งเป็นเวิลด์โมเดลขนาดกะทัดรัดที่สร้างขึ้นเพื่อประมวลผลการใช้เหตุผลเชิงภาพและการควบคุมหุ่นยนต์โดยตรงบนอุปกรณ์เอดจ์ควบคู่ไปกับการประกาศความร่วมมือครั้งใหม่ที่จะช่วยผลักดันแพลตฟอร์ม AI เชิงกายภาพให้เข้าสู่ภาคอุตสาหกรรมหุ่นยนต์และการผลิตของประเทศญี่ปุ่นได้ลึกซึ้งยิ่งขึ้น

TechTalkThai ศูนย์รวมข่าว Enterprise IT ออนไลน์แห่งแรกในประเทศไทย

Google เคลม LLM เบอร์ 1 แต่ Benchmark ไม่ได้เป็นทุกอย่างในการตัดสิน

About chatchai

Related Articles

Check Also

การ์ทเนอร์ชี้ เม็ดเงินซอฟต์แวร์แอปพลิเคชันองค์กร 234 พันล้านดอลลาร์ เผชิญความเสี่ยงจาก Agentic AI [PR]

Nvidia เปิดตัวโมเดล Cosmos 3 Edge ดัน Physical AI ในญี่ปุ่น

Google เคลม LLM เบอร์ 1 แต่ Benchmark ไม่ได้เป็นทุกอย่างในการตัดสิน

Share this:

About chatchai

Related Articles

Check Also