แม้ว่าโมเดลจะมีประสิทธิภาพที่ดี แต่เรื่อง Responsible AI ก็เป็นสิ่งที่สำคัญมาก ล่าสุด Google ได้ปล่อยโมเดล LLM ที่อยู่ในระหว่างการทดสอบใหม่ล่าสุดในชื่อ “Gemini-Exp-1114” ที่ Benchmark แล้วได้คะแนนทะยานขึ้นเป็นอันดับที่ 1 แต่อาจจะไม่สามารถนำมาใช้งานได้จริง
Google ได้ปล่อยโมเดล LLM ที่อยู่ในระหว่างการทดสอบล่าสุดภายใต้ชื่อ “Gemini-Exp-1114” ซึ่งปัจจุบันมีให้ทดลองใช้งานได้ผ่าน Google AI Studio เท่านั้นออกมา ซึ่งดูเหมือนว่าประสิทธิภาพทดสอบตาม Benchmark แล้วจะพุ่งทะยานเป็นอันดับที่ 1 เบียด GPT-4o ของ OpenAI ในภาพรวม ขึ้นแทนใน Chatbot Area Leaderboard ไปเป็นที่เรียบร้อย
โดย Chatbot Arena คือแพลตฟอร์มทดสอบที่มีทั้งเรื่องการคำนวณคณิตศาสตร์ การเขียนงานสร้างสรรค์ การเข้าใจภาพ เป็นต้น ซึ่งได้รายงานผลของโมเดล Gemini ที่อยู่ในระหว่างการทดสอบออกมาได้คะแนนถึง 1344 คะแนน มีพัฒนาการขึ้นมาจากโมเดลก่อนหน้าราว 40 คะแนน
หากแต่ Gemini-Exp-1114 ดูเหมือนจะมีความเสี่ยงในการสร้างเนื้อหาอันตรายออกมาสำหรับผู้ใช้งานได้อย่างมีนัยสำคัญ ซึ่งมีหลายตัวอย่างที่เผยออกมาถึงด้านมืดของโมเดลตัวนี้
ดังนั้น Benchmark ที่เผยให้เห็นคะแนนสูง ๆ นั้นอาจจะไม่ใช่ทุกอย่างของโมเดลที่สามารถใช้งานได้จริง เพราะยังมีทั้งเรื่องความปลอดภัยของ AI (AI Safety) ความเชื่อถือได้ ความไว้ใจ ฯลฯ อีกหลายมุม ที่รวม ๆ แล้วเรียกว่า Responsible AI ที่ต้องมีความรับผิดชอบต่อสังคม ซึ่งคงต้องติดตามถึงพัฒนาการของโมเดล LLM กันต่อไปว่าจะสามารถปรับเรื่องนี้ได้หรือไม่ และชุดทดสอบจะสามารถวัดในเรื่องดังกล่าวได้ดีขึ้นอย่างไร