Google เปิดตัว Gemini 2.5 Computer Use Model ควบคุมหน้าจอผ่าน AI

October 8, 2025 AI, Cloud and Systems, Google, Products

Google ประกาศเปิดตัว Gemini 2.5 Computer Use Model ผ่าน API ให้นักพัฒนาสร้าง AI Agent ที่สามารถโต้ตอบกับ User Interface ได้โดยตรง มีประสิทธิภาพเหนือกว่าคู่แข่งในการควบคุม Browser และ Mobile พร้อม Latency ที่ต่ำกว่า

Google DeepMind ได้เปิดตัว Gemini 2.5 Computer Use Model โมเดล AI เฉพาะทางที่พัฒนาต่อยอดจากความสามารถด้าน Visual Understanding และ Reasoning ของ Gemini 2.5 Pro เพื่อขับเคลื่อน AI Agent ให้สามารถโต้ตอบกับ Graphical User Interface (GUI) ได้เหมือนมนุษย์ ไม่ว่าจะเป็นการคลิก พิมพ์ข้อความ หรือเลื่อนหน้าจอ โมเดลนี้พร้อมให้ใช้งานแบบ Preview ผ่าน Gemini API ทั้งใน Google AI Studio และ Vertex AI

การทำงานของโมเดลอาศัย Computer Use Tool ใน Gemini API ที่ทำงานแบบ Loop โดยรับ Input จากคำขอของผู้ใช้งาน Screenshot ของหน้าจอ และประวัติการดำเนินการล่าสุด จากนั้นโมเดลจะวิเคราะห์และสร้าง Response เป็น Function Call ที่แสดงถึงการกระทำบน UI เช่น การคลิกหรือการพิมพ์ หลังจากดำเนินการเสร็จสิ้น Screenshot ใหม่และ URL ปัจจุบันจะถูกส่งกลับไปยังโมเดลเพื่อเริ่ม Loop ใหม่ กระบวนการนี้จะดำเนินต่อไปจนกว่างานจะเสร็จสมบูรณ์หรือเกิดข้อผิดพลาด โมเดลได้รับการออกแบบมาให้ทำงานกับ Web Browser เป็นหลัก แต่ยังแสดงศักยภาพที่ดีในการควบคุม Mobile UI แม้ว่ายังไม่ได้รับการปรับแต่งสำหรับการควบคุมระดับ Desktop OS

ในด้านประสิทธิภาพ Gemini 2.5 Computer Use Model แสดงผลลัพธ์ที่โดดเด่นบน Benchmark หลายตัว โดยทำคะแนนนำใน Online-Mind2Web, WebVoyager และ AndroidWorld เหนือกว่าโมเดลคู่แข่ง จุดเด่นสำคัญคือความสามารถในการให้ Accuracy สูงพร้อมกับ Latency ต่ำที่สุดเมื่อเทียบกับคู่แข่งในการทดสอบบน Browserbase harness สำหรับ Online-Mind2Web

Google ให้ความสำคัญกับความปลอดภัยโดยฝึก Safety Features เข้าไปในโมเดลโดยตรงเพื่อจัดการกับความเสี่ยงหลัก 3 ประการ ได้แก่ การใช้งานในทางที่ผิดโดยผู้ใช้ พฤติกรรมที่ไม่คาดคิดของโมเดล และ Prompt Injection หรือการหลอกลวงบนเว็บ นอกจากนี้ยังมี Per-step Safety Service ที่ประเมินการกระทำแต่ละขั้นตอนก่อนดำเนินการ และ System Instructions ที่ให้นักพัฒนากำหนดให้ Agent ปฏิเสธหรือขอการยืนยันจากผู้ใช้ก่อนทำการกระทำที่มีความเสี่ยงสูง เช่น การเปลี่ยนแปลง System Integrity การ Bypass CAPTCHA หรือการควบคุมอุปกรณ์ทางการแพทย์ ทีมภายใน Google ได้นำโมเดลนี้ไปใช้ในการทำ UI Testing และขับเคลื่อน Project Mariner, Firebase Testing Agent รวมถึงฟีเจอร์ AI Mode ใน Google Search

ที่มา: https://blog.google/technology/google-deepmind/gemini-computer-use-model/

Tags ai agent androidworld api benchmark browser control computer use firebase testing agent gemini google ai studio google deepmind mobile control online-mind2web project mariner ui automation vertex ai webvoyager

About เด็กฝึกงาน TechTalkThai หมายเลข 1

นักเขียนผู้มีความสนใจใน Enterprise IT ด้วยประสบการณ์กว่า 10 ปีในไทย ปัจจุบันใช้ชีวิตอยู่ที่สหรัฐอเมริกา แต่ยังคงมุ่งมั่นในการแบ่งปันความรู้และประสบการณ์ด้านเทคโนโลยีให้กับทุกคน

Check Also

Dell Pro Precision x Dell Pro AI Studio: จุดเริ่มต้น AI ที่ใช่สำหรับทุกองค์กร [Guest Post]

ในยุคที่ AI กลายเป็นหัวใจของการขับเคลื่อนธุรกิจ องค์กรทุกขนาดต่างมองหา “จุดเริ่มต้น” ที่แข็งแรงพอจะรองรับงานตั้งแต่การออกแบบ วิเคราะห์ข้อมูล ไปจนถึงการพัฒนาโมเดล AI ของตัวเอง Dell Pro Precision คือคำตอบ workstations …

NCSA ร่วมกับ Veeam ขอเชิญทุกท่านเข้าร่วมงานสัมมนาออนไลน์ในหัวข้อ “Data Trust ในยุค AI” [4 ส.ค. 2569 — 14.00น.]

NCSA ร่วมกับ Veeam ขอเชิญทุกท่านเข้าร่วมงานสัมมนาออนไลน์ในหัวข้อ “Data Trust ในยุค AI” เพื่อเรียนรู้กับการป้องกันไม่ให้ข้อมูลสำคัญขององค์กรหรือหน่วยงาน รั่วไหลไปกับการใช้งาน AI Agent ที่มีความรวดเร็วและซับซ้อนขึ้นเรื่อยๆ ด้วยมาตรการต่างๆ เช่น …

TechTalkThai ศูนย์รวมข่าว Enterprise IT ออนไลน์แห่งแรกในประเทศไทย

Google เปิดตัว Gemini 2.5 Computer Use Model ควบคุมหน้าจอผ่าน AI

About เด็กฝึกงาน TechTalkThai หมายเลข 1

Related Articles

Check Also

Dell Pro Precision x Dell Pro AI Studio: จุดเริ่มต้น AI ที่ใช่สำหรับทุกองค์กร [Guest Post]

NCSA ร่วมกับ Veeam ขอเชิญทุกท่านเข้าร่วมงานสัมมนาออนไลน์ในหัวข้อ “Data Trust ในยุค AI” [4 ส.ค. 2569 — 14.00น.]

Google เปิดตัว Gemini 2.5 Computer Use Model ควบคุมหน้าจอผ่าน AI

Share this:

About เด็กฝึกงาน TechTalkThai หมายเลข 1

Related Articles

Check Also