Google ประกาศเปิดตัว Gemini 2.5 Computer Use Model ผ่าน API ให้นักพัฒนาสร้าง AI Agent ที่สามารถโต้ตอบกับ User Interface ได้โดยตรง มีประสิทธิภาพเหนือกว่าคู่แข่งในการควบคุม Browser และ Mobile พร้อม Latency ที่ต่ำกว่า

Google DeepMind ได้เปิดตัว Gemini 2.5 Computer Use Model โมเดล AI เฉพาะทางที่พัฒนาต่อยอดจากความสามารถด้าน Visual Understanding และ Reasoning ของ Gemini 2.5 Pro เพื่อขับเคลื่อน AI Agent ให้สามารถโต้ตอบกับ Graphical User Interface (GUI) ได้เหมือนมนุษย์ ไม่ว่าจะเป็นการคลิก พิมพ์ข้อความ หรือเลื่อนหน้าจอ โมเดลนี้พร้อมให้ใช้งานแบบ Preview ผ่าน Gemini API ทั้งใน Google AI Studio และ Vertex AI
การทำงานของโมเดลอาศัย Computer Use Tool ใน Gemini API ที่ทำงานแบบ Loop โดยรับ Input จากคำขอของผู้ใช้งาน Screenshot ของหน้าจอ และประวัติการดำเนินการล่าสุด จากนั้นโมเดลจะวิเคราะห์และสร้าง Response เป็น Function Call ที่แสดงถึงการกระทำบน UI เช่น การคลิกหรือการพิมพ์ หลังจากดำเนินการเสร็จสิ้น Screenshot ใหม่และ URL ปัจจุบันจะถูกส่งกลับไปยังโมเดลเพื่อเริ่ม Loop ใหม่ กระบวนการนี้จะดำเนินต่อไปจนกว่างานจะเสร็จสมบูรณ์หรือเกิดข้อผิดพลาด โมเดลได้รับการออกแบบมาให้ทำงานกับ Web Browser เป็นหลัก แต่ยังแสดงศักยภาพที่ดีในการควบคุม Mobile UI แม้ว่ายังไม่ได้รับการปรับแต่งสำหรับการควบคุมระดับ Desktop OS
ในด้านประสิทธิภาพ Gemini 2.5 Computer Use Model แสดงผลลัพธ์ที่โดดเด่นบน Benchmark หลายตัว โดยทำคะแนนนำใน Online-Mind2Web, WebVoyager และ AndroidWorld เหนือกว่าโมเดลคู่แข่ง จุดเด่นสำคัญคือความสามารถในการให้ Accuracy สูงพร้อมกับ Latency ต่ำที่สุดเมื่อเทียบกับคู่แข่งในการทดสอบบน Browserbase harness สำหรับ Online-Mind2Web
Google ให้ความสำคัญกับความปลอดภัยโดยฝึก Safety Features เข้าไปในโมเดลโดยตรงเพื่อจัดการกับความเสี่ยงหลัก 3 ประการ ได้แก่ การใช้งานในทางที่ผิดโดยผู้ใช้ พฤติกรรมที่ไม่คาดคิดของโมเดล และ Prompt Injection หรือการหลอกลวงบนเว็บ นอกจากนี้ยังมี Per-step Safety Service ที่ประเมินการกระทำแต่ละขั้นตอนก่อนดำเนินการ และ System Instructions ที่ให้นักพัฒนากำหนดให้ Agent ปฏิเสธหรือขอการยืนยันจากผู้ใช้ก่อนทำการกระทำที่มีความเสี่ยงสูง เช่น การเปลี่ยนแปลง System Integrity การ Bypass CAPTCHA หรือการควบคุมอุปกรณ์ทางการแพทย์ ทีมภายใน Google ได้นำโมเดลนี้ไปใช้ในการทำ UI Testing และขับเคลื่อน Project Mariner, Firebase Testing Agent รวมถึงฟีเจอร์ AI Mode ใน Google Search
ที่มา: https://blog.google/technology/google-deepmind/gemini-computer-use-model/
TechTalkThai ศูนย์รวมข่าว Enterprise IT ออนไลน์แห่งแรกในประเทศไทย






