Google เปิดตัว Gemini 2.5 Computer Use Model ควบคุมหน้าจอผ่าน AI

Google ประกาศเปิดตัว Gemini 2.5 Computer Use Model ผ่าน API ให้นักพัฒนาสร้าง AI Agent ที่สามารถโต้ตอบกับ User Interface ได้โดยตรง มีประสิทธิภาพเหนือกว่าคู่แข่งในการควบคุม Browser และ Mobile พร้อม Latency ที่ต่ำกว่า

Credit: Google

Google DeepMind ได้เปิดตัว Gemini 2.5 Computer Use Model โมเดล AI เฉพาะทางที่พัฒนาต่อยอดจากความสามารถด้าน Visual Understanding และ Reasoning ของ Gemini 2.5 Pro เพื่อขับเคลื่อน AI Agent ให้สามารถโต้ตอบกับ Graphical User Interface (GUI) ได้เหมือนมนุษย์ ไม่ว่าจะเป็นการคลิก พิมพ์ข้อความ หรือเลื่อนหน้าจอ โมเดลนี้พร้อมให้ใช้งานแบบ Preview ผ่าน Gemini API ทั้งใน Google AI Studio และ Vertex AI

การทำงานของโมเดลอาศัย Computer Use Tool ใน Gemini API ที่ทำงานแบบ Loop โดยรับ Input จากคำขอของผู้ใช้งาน Screenshot ของหน้าจอ และประวัติการดำเนินการล่าสุด จากนั้นโมเดลจะวิเคราะห์และสร้าง Response เป็น Function Call ที่แสดงถึงการกระทำบน UI เช่น การคลิกหรือการพิมพ์ หลังจากดำเนินการเสร็จสิ้น Screenshot ใหม่และ URL ปัจจุบันจะถูกส่งกลับไปยังโมเดลเพื่อเริ่ม Loop ใหม่ กระบวนการนี้จะดำเนินต่อไปจนกว่างานจะเสร็จสมบูรณ์หรือเกิดข้อผิดพลาด โมเดลได้รับการออกแบบมาให้ทำงานกับ Web Browser เป็นหลัก แต่ยังแสดงศักยภาพที่ดีในการควบคุม Mobile UI แม้ว่ายังไม่ได้รับการปรับแต่งสำหรับการควบคุมระดับ Desktop OS

ในด้านประสิทธิภาพ Gemini 2.5 Computer Use Model แสดงผลลัพธ์ที่โดดเด่นบน Benchmark หลายตัว โดยทำคะแนนนำใน Online-Mind2Web, WebVoyager และ AndroidWorld เหนือกว่าโมเดลคู่แข่ง จุดเด่นสำคัญคือความสามารถในการให้ Accuracy สูงพร้อมกับ Latency ต่ำที่สุดเมื่อเทียบกับคู่แข่งในการทดสอบบน Browserbase harness สำหรับ Online-Mind2Web

Google ให้ความสำคัญกับความปลอดภัยโดยฝึก Safety Features เข้าไปในโมเดลโดยตรงเพื่อจัดการกับความเสี่ยงหลัก 3 ประการ ได้แก่ การใช้งานในทางที่ผิดโดยผู้ใช้ พฤติกรรมที่ไม่คาดคิดของโมเดล และ Prompt Injection หรือการหลอกลวงบนเว็บ นอกจากนี้ยังมี Per-step Safety Service ที่ประเมินการกระทำแต่ละขั้นตอนก่อนดำเนินการ และ System Instructions ที่ให้นักพัฒนากำหนดให้ Agent ปฏิเสธหรือขอการยืนยันจากผู้ใช้ก่อนทำการกระทำที่มีความเสี่ยงสูง เช่น การเปลี่ยนแปลง System Integrity การ Bypass CAPTCHA หรือการควบคุมอุปกรณ์ทางการแพทย์ ทีมภายใน Google ได้นำโมเดลนี้ไปใช้ในการทำ UI Testing และขับเคลื่อน Project Mariner, Firebase Testing Agent รวมถึงฟีเจอร์ AI Mode ใน Google Search

ที่มา: https://blog.google/technology/google-deepmind/gemini-computer-use-model/

About เด็กฝึกงาน TechTalkThai หมายเลข 1

นักเขียนผู้มีความสนใจใน Enterprise IT ด้วยประสบการณ์กว่า 10 ปีในไทย ปัจจุบันใช้ชีวิตอยู่ที่สหรัฐอเมริกา แต่ยังคงมุ่งมั่นในการแบ่งปันความรู้และประสบการณ์ด้านเทคโนโลยีให้กับทุกคน

Check Also

Elastic 9.4 ออกแล้ว

Elastic ได้ออกมาประกาศเปิดตัว Elastic 9.4 อย่างเป็นทางการ โดยเพิ่มความสามารถในการตรวจสอบการทำงานของ Context Engineering, Application และ Infrastructure เพิ่มเติม, เสริม AI ในการรักษาความมั่นคงปลอดภัย และเพิ่มความสามารถอื่นๆ อีกมากมาย ดังนี้

Extreme Networks เปิดตัว Wi-Fi 7 AP รุ่นใหม่ พร้อม Agentic AI สำหรับบริหารจัดการระบบเครือข่ายแบบอัตโนมัติ

Extreme Networks ได้ออกมาประกาศถึงอัปเดตครั้งใหญ่ โดยเปิดตัว Wi-Fi 7 Access Point รุ่นใหม่ล่าสุด 5 รุ่น พร้อมนวัตกรรมใหม่ในการบริหารจัดการระบบเครือข่ายด้วย AI Agent เพื่อดูแลรักษาระบบเครือข่ายขององค์กรให้ทำงานได้อย่างต่อเนื่องโดยอัตโนมัติ