Google DeepMind เปิดตัว Gemini Robotics-ER 1.6 สนองความต้องการ Physical AI ที่แม่นยำ

Google DeepMind แผนกวิจัยปัญญาประดิษฐ์ของ Alphabet ได้เปิดตัวโมเดล AI พื้นฐานสำหรับหุ่นยนต์รุ่นใหม่ ซึ่งออกแบบมาเพื่อเป็นการอัปเกรดครั้งสำคัญในการทำความเข้าใจและการใช้เหตุผลเชิงพื้นที่อย่างแม่นยำ

Credit: Google

โมเดลใหม่นี้มีชื่อว่า Gemini Robotics-ER 1.6 จาก Gemini Robotics โดยจะช่วยเพิ่มประสิทธิภาพการใช้เหตุผลเชิงพื้นที่และการทำความเข้าใจแบบหลายมุมมอง เพื่อสร้างความเป็นอิสระในการตัดสินใจที่มากขึ้นให้กับหุ่นยนต์และเอเจนต์เชิงกายภาพทุกประเภท

DeepMind กล่าวว่าโมเดลนี้มอบความสามารถในการใช้เหตุผลระดับสูงสำหรับงานด้านหุ่นยนต์ โดยทำหน้าที่เป็นเลเยอร์สำหรับการวางแผนงานและการเรียกใช้เครื่องมือ ซึ่งรวมถึงเครื่องมือพื้นฐานสำหรับ Google Search เพื่อค้นหาข้อมูล โมเดล vision-language-action และฟังก์ชันอื่น ๆ ที่ผู้ใช้กำหนดเองจากบุคคลที่สามเพื่อขยายขีดความสามารถ

ตัวอย่างของการปรับปรุง ได้แก่ การตรวจจับวัตถุที่มีความแม่นยำ การจัดหมวดหมู่ และการตรวจจับ ซึ่งเป็นสิ่งจำเป็นสำหรับหุ่นยนต์ในการเลือกและหยิบจับสิ่งของ โดยเฉพาะสำหรับการคัดแยกพัสดุหรือการทำความสะอาดห้องที่รกรุงรัง นอกจากนี้ยังมีความสำคัญในด้านตรรกะเชิงความสัมพันธ์ เช่น การเปรียบเทียบ ตัวอย่างเช่น การระบุวัตถุที่เล็กที่สุดในกลุ่ม หรือการกำหนดความสัมพันธ์ “จาก-ไป” เมื่อต้องย้ายวัตถุ X ไปยังตำแหน่ง Y สิ่งนี้ควบคู่ไปกับการเพิ่มประสิทธิภาพในการวางแผนเส้นทาง และการกำหนดวิธีที่ดีที่สุดในการหยิบจับวัตถุ

ทางบริษัทระบุด้วยว่าโมเดลนี้ทำงานได้ดีภายใต้ข้อจำกัดและสามารถใช้เหตุผลผ่านคำสั่งที่ซับซ้อนได้ เช่น “จงชี้ไปที่วัตถุทุกชิ้นที่มีขนาดเล็กพอที่จะใส่ลงในถ้วยสีน้ำเงินได้” นอกเหนือจากการทำให้หุ่นยนต์เคลื่อนที่แล้ว นักวิจัยของ DeepMind ยังได้เพิ่มความสามารถของโมเดลในการทำความเข้าใจและอ่านค่าจากสิ่งต่าง ๆ เช่น เกจวัดและเครื่องมือวัด ซึ่งต้องใช้การใช้เหตุผลด้วยภาพที่ซับซ้อน อีกทั้งยังเป็นพื้นฐานสำหรับการปฏิบัติงานภายในสภาพแวดล้อมต่าง ๆ เช่น โรงงาน คลังสินค้า และแม้แต่พื้นที่ในที่พักอาศัยอย่างบ้านเรือน

ในหลายกรณี เกจวัดจะมีทั้งเข็ม ขีดเครื่องหมาย ตัวเลขที่สลักไว้อย่างละเอียด และตัวบ่งชี้อื่น ๆ (และบางครั้งก็มีคำสั่ง) ที่ต้องได้รับการตีความเพื่อทำความเข้าใจลักษณะของค่าที่อ่านได้อย่างครบถ้วน

“ความสามารถอย่างการอ่านเครื่องมือวัดและการใช้เหตุผลในงานที่น่าเชื่อถือมากขึ้น จะช่วยให้ Spot สามารถมองเห็น ทำความเข้าใจ และตอบสนองต่อความท้าทายในโลกแห่งความเป็นจริงได้อย่างเป็นอิสระโดยสมบูรณ์” Marco da Silva รองประธานและผู้จัดการทั่วไปของ Spot แห่ง Boston Dynamics ซึ่งเป็นหุ่นยนต์คล้ายสุนัขที่บริษัทพัฒนาขึ้นกล่าว

DeepMind กล่าวว่า Robotics-ER 1.6 บรรลุความแม่นยำระดับนี้ผ่านการมองเห็นแบบเอเจนต์ ซึ่งผสมผสานการใช้เหตุผลด้วยภาพเข้ากับการรันโค้ด โมเดลจะทำการบันทึกภาพนิ่ง ตีความรายละเอียดที่ชัดเจน จากนั้นใช้โค้ดที่ได้รับการดูแลอย่างพิถีพิถันเพื่อประมาณค่าสัดส่วนและระยะห่างเพื่อให้ได้การอ่านค่าที่แม่นยำ และสุดท้ายจึงใช้กลไกการให้เหตุผลเพื่อตีความค่าที่อ่านได้นั้น

ตั้งแต่วันนี้เป็นต้นไป นักพัฒนาสามารถเข้าถึง ER 1.6 ได้แล้วผ่าน Gemini API และ Google AI Studio

ที่มา: https://siliconangle.com/2026/04/15/deepmind-launches-gemini-robotics-er-1-6-meet-precise-physical-ai-demands/

About นักเขียนฝึกหัดหมายเลขเก้า

Check Also

ยกระดับ AI Vibe Coding สู่ Spec-Driven Development ด้วย GitHub Copilot และ Enterprise Governance พร้อมเบื้องหลังการทำ Agentic SDLC

ปัจจุบัน AI ก้าวข้ามขีดจำกัดจากการเป็นเพียงเครื่องมือช่วยเขียนโค้ด สู่การเป็น Agent ที่สามารถทำงานสอดประสานร่วมกับนักพัฒนาได้แบบ End-to-End ตลอด Software Development Lifecycle หรือ SDLC ทว่าในโลกการพัฒนาซอฟต์แวร์ระดับ Enterprise …

Microsoft Defender for Endpoint เพิ่มฟีเจอร์แยกอุปกรณ์ที่ถูกโจมตีออกจากเครือข่ายโดยอัตโนมัติ

Microsoft เปิดตัวความสามารถใหม่ใน Defender for Endpoint ที่สามารถแยกอุปกรณ์ที่ถูกบุกรุกออกจากเครือข่ายโดยอัตโนมัติ เพื่อป้องกันไม่ให้ผู้โจมตีเคลื่อนย้ายภายในระบบได้ โดยขณะนี้อยู่ในสถานะ Preview