Google เปิดตัว Gemini 2.5 Flash-Lite โมเดล LLM ระดับเริ่มต้นตัวใหม่ประมวลผลเร็วขึ้น ราคาถูกกว่า Pro ถึง 10 เท่า พร้อมใช้งาน mixture-of-experts เพิ่มประสิทธิภาพ

Google เปิดตัว Gemini 2.5 Flash-Lite เป็น large language model ตัวใหม่ในระดับ entry-level ที่สามารถประมวลผล prompts ได้เร็วและประหยัดต้นทุนกว่ารุ่นก่อน พร้อมกันนี้ยังประกาศว่า Gemini 2.5 Flash และ 2.5 Pro เปลี่ยนสถานะจาก preview มาเป็น general availability อย่างเป็นทางการ โดย Pro ได้รับการปรับโครงสร้างราคาใหม่ด้วย
Gemini 2.5 series ทั้งหมดใช้สถาปัตยกรรม mixture-of-experts ซึ่งหมายความว่าแต่ละโมเดลประกอบด้วย neural networks หลายตัว เมื่อผู้ใช้งานส่ง prompt เข้ามา Gemini 2.5 จะเปิดใช้งานเพียง neural network เดียวแทนที่จะใช้ทั้งหมด ช่วยลดการใช้งานฮาร์ดแวร์ได้มาก Google เป็นบริษัทแรกที่ฝึกสอน LLM series นี้โดยใช้ชิป TPUv5p AI ที่พัฒนาขึ้นเอง ในกระบวนการฝึกสอนใช้ server clusters หลายชุดที่แต่ละชุดมี TPUv5p chips ถึง 8,960 ตัว พร้อมติดตั้งซอฟต์แวร์ใหม่ที่สามารถแก้ปัญหาทางเทคนิคบางอย่างได้อัตโนมัติ
โมเดลในซีรีส์ Gemini 2.5 เป็น multimodal รองรับได้สูงสุด 1 ล้าน tokens ต่อ prompt โดย Gemini 2.5 Pro ซึ่งเป็นโมเดลหลักในซีรีส์นี้ แสดงผลการทดสอบภายในที่เอาชนะ OpenAI o3-mini ในหลาย benchmarks ทั้งด้านคณิตศาสตร์และการเขียนโค้ด สำหรับ Gemini 2.5 Flash ที่เปลี่ยนเป็น GA วันนี้ แลกประสิทธิภาพบางส่วนเพื่อความรวดเร็วและประหยัดต้นทุน ส่วน Gemini 2.5 Flash-Lite ตัวใหม่นี้เน้นประสิทธิภาพสูงกว่า 2.0 Flash-Lite ในด้าน coding, math, science, reasoning และ multimodal benchmarks โดยเฉพาะงานที่ต้องการ latency ต่ำและปริมาณสูง เช่น translation และ classification มี latency ต่ำกว่าทั้ง 2.0 Flash-Lite และ 2.0 Flash เมื่อทดสอบกับ prompts หลากหลายรูปแบบ
ด้านราคา Gemini 2.5 Flash-Lite คิดเพียง 10 cents ต่อ 1 ล้าน input tokens สำหรับ prompts ที่มีข้อความ รูปภาพ หรือวิดีโอ ซึ่งน้อยกว่า 1 ใน 10 เมื่อเทียบกับ Gemini 2.5 Pro ส่วนราคา output tokens อยู่ที่ 40 cents ต่อล้าน เทียบกับ 10 ดอลลาร์ของ Pro Google ยังปรับราคา Gemini 2.5 Flash ใหม่เป็น 30 cents ต่อล้าน input tokens จากเดิม 15 cents และ 2.50 ดอลลาร์ต่อล้าน output tokens จากเดิม 3.50 ดอลลาร์ พร้อมยกเลิกการคิดราคาแยกสำหรับ tokens ที่ประมวลผลใน “thinking mode” ซึ่งเป็นโหมดที่ช่วยเพิ่มคุณภาพ output โดยใช้เวลาและทรัพยากรมากขึ้นในการสร้างคำตอบ