Google เปิดตัว Gemini 2.5 Computer Use Model ควบคุมหน้าจอผ่าน AI

Google ประกาศเปิดตัว Gemini 2.5 Computer Use Model ผ่าน API ให้นักพัฒนาสร้าง AI Agent ที่สามารถโต้ตอบกับ User Interface ได้โดยตรง มีประสิทธิภาพเหนือกว่าคู่แข่งในการควบคุม Browser และ Mobile พร้อม Latency ที่ต่ำกว่า

Credit: Google

Google DeepMind ได้เปิดตัว Gemini 2.5 Computer Use Model โมเดล AI เฉพาะทางที่พัฒนาต่อยอดจากความสามารถด้าน Visual Understanding และ Reasoning ของ Gemini 2.5 Pro เพื่อขับเคลื่อน AI Agent ให้สามารถโต้ตอบกับ Graphical User Interface (GUI) ได้เหมือนมนุษย์ ไม่ว่าจะเป็นการคลิก พิมพ์ข้อความ หรือเลื่อนหน้าจอ โมเดลนี้พร้อมให้ใช้งานแบบ Preview ผ่าน Gemini API ทั้งใน Google AI Studio และ Vertex AI

การทำงานของโมเดลอาศัย Computer Use Tool ใน Gemini API ที่ทำงานแบบ Loop โดยรับ Input จากคำขอของผู้ใช้งาน Screenshot ของหน้าจอ และประวัติการดำเนินการล่าสุด จากนั้นโมเดลจะวิเคราะห์และสร้าง Response เป็น Function Call ที่แสดงถึงการกระทำบน UI เช่น การคลิกหรือการพิมพ์ หลังจากดำเนินการเสร็จสิ้น Screenshot ใหม่และ URL ปัจจุบันจะถูกส่งกลับไปยังโมเดลเพื่อเริ่ม Loop ใหม่ กระบวนการนี้จะดำเนินต่อไปจนกว่างานจะเสร็จสมบูรณ์หรือเกิดข้อผิดพลาด โมเดลได้รับการออกแบบมาให้ทำงานกับ Web Browser เป็นหลัก แต่ยังแสดงศักยภาพที่ดีในการควบคุม Mobile UI แม้ว่ายังไม่ได้รับการปรับแต่งสำหรับการควบคุมระดับ Desktop OS

ในด้านประสิทธิภาพ Gemini 2.5 Computer Use Model แสดงผลลัพธ์ที่โดดเด่นบน Benchmark หลายตัว โดยทำคะแนนนำใน Online-Mind2Web, WebVoyager และ AndroidWorld เหนือกว่าโมเดลคู่แข่ง จุดเด่นสำคัญคือความสามารถในการให้ Accuracy สูงพร้อมกับ Latency ต่ำที่สุดเมื่อเทียบกับคู่แข่งในการทดสอบบน Browserbase harness สำหรับ Online-Mind2Web

Google ให้ความสำคัญกับความปลอดภัยโดยฝึก Safety Features เข้าไปในโมเดลโดยตรงเพื่อจัดการกับความเสี่ยงหลัก 3 ประการ ได้แก่ การใช้งานในทางที่ผิดโดยผู้ใช้ พฤติกรรมที่ไม่คาดคิดของโมเดล และ Prompt Injection หรือการหลอกลวงบนเว็บ นอกจากนี้ยังมี Per-step Safety Service ที่ประเมินการกระทำแต่ละขั้นตอนก่อนดำเนินการ และ System Instructions ที่ให้นักพัฒนากำหนดให้ Agent ปฏิเสธหรือขอการยืนยันจากผู้ใช้ก่อนทำการกระทำที่มีความเสี่ยงสูง เช่น การเปลี่ยนแปลง System Integrity การ Bypass CAPTCHA หรือการควบคุมอุปกรณ์ทางการแพทย์ ทีมภายใน Google ได้นำโมเดลนี้ไปใช้ในการทำ UI Testing และขับเคลื่อน Project Mariner, Firebase Testing Agent รวมถึงฟีเจอร์ AI Mode ใน Google Search

ที่มา: https://blog.google/technology/google-deepmind/gemini-computer-use-model/

About เด็กฝึกงาน TechTalkThai หมายเลข 1

นักเขียนผู้มีความสนใจใน Enterprise IT ด้วยประสบการณ์กว่า 10 ปีในไทย ปัจจุบันใช้ชีวิตอยู่ที่สหรัฐอเมริกา แต่ยังคงมุ่งมั่นในการแบ่งปันความรู้และประสบการณ์ด้านเทคโนโลยีให้กับทุกคน

Check Also

Sonar เข้าซื้อกิจการ Gitar สตาร์ตอัป AI Code Review ยกระดับระบบตรวจสอบโค้ดด้วย Agentic Reasoning

Sonar ผู้ให้บริการแพลตฟอร์มตรวจสอบคุณภาพและความมั่นคงปลอดภัยของโค้ด ประกาศเข้าซื้อกิจการ Gitar สตาร์ตอัปผู้เชี่ยวชาญด้านระบบ AI-native Code Review การเข้าซื้อกิจการครั้งนี้มีเป้าหมายเพื่อผสานความสามารถด้านการคิดวิเคราะห์ของ Gitar เข้ากับเอนจินตรวจสอบโค้ดของ Sonar เพื่อสร้างความมั่นคงปลอดภัยที่รัดกุมยิ่งขึ้นสำหรับทีม DevOps ในยุคที่ …

Huawei เปิดตัวสถาปัตยกรรมชิปใหม่ แก้ปัญหาคว่ำบาตรและข้อจำกัด Moore’s Law

Huawei Technologies ยักษ์ใหญ่ด้านอิเล็กทรอนิกส์จากจีนได้เปิดตัวเฟรมเวิร์กการออกแบบชิปใหม่ ซึ่งบริษัทระบุว่าจะช่วยลดช่องว่างในอุตสาหกรรมเซมิคอนดักเตอร์กับผู้นำระดับโลกอย่าง TSMC และ Nvidia ได้