Google DeepMind แผนกวิจัยปัญญาประดิษฐ์ของ Alphabet ได้เปิดตัวโมเดล AI พื้นฐานสำหรับหุ่นยนต์รุ่นใหม่ ซึ่งออกแบบมาเพื่อเป็นการอัปเกรดครั้งสำคัญในการทำความเข้าใจและการใช้เหตุผลเชิงพื้นที่อย่างแม่นยำ

โมเดลใหม่นี้มีชื่อว่า Gemini Robotics-ER 1.6 จาก Gemini Robotics โดยจะช่วยเพิ่มประสิทธิภาพการใช้เหตุผลเชิงพื้นที่และการทำความเข้าใจแบบหลายมุมมอง เพื่อสร้างความเป็นอิสระในการตัดสินใจที่มากขึ้นให้กับหุ่นยนต์และเอเจนต์เชิงกายภาพทุกประเภท
DeepMind กล่าวว่าโมเดลนี้มอบความสามารถในการใช้เหตุผลระดับสูงสำหรับงานด้านหุ่นยนต์ โดยทำหน้าที่เป็นเลเยอร์สำหรับการวางแผนงานและการเรียกใช้เครื่องมือ ซึ่งรวมถึงเครื่องมือพื้นฐานสำหรับ Google Search เพื่อค้นหาข้อมูล โมเดล vision-language-action และฟังก์ชันอื่น ๆ ที่ผู้ใช้กำหนดเองจากบุคคลที่สามเพื่อขยายขีดความสามารถ
ตัวอย่างของการปรับปรุง ได้แก่ การตรวจจับวัตถุที่มีความแม่นยำ การจัดหมวดหมู่ และการตรวจจับ ซึ่งเป็นสิ่งจำเป็นสำหรับหุ่นยนต์ในการเลือกและหยิบจับสิ่งของ โดยเฉพาะสำหรับการคัดแยกพัสดุหรือการทำความสะอาดห้องที่รกรุงรัง นอกจากนี้ยังมีความสำคัญในด้านตรรกะเชิงความสัมพันธ์ เช่น การเปรียบเทียบ ตัวอย่างเช่น การระบุวัตถุที่เล็กที่สุดในกลุ่ม หรือการกำหนดความสัมพันธ์ “จาก-ไป” เมื่อต้องย้ายวัตถุ X ไปยังตำแหน่ง Y สิ่งนี้ควบคู่ไปกับการเพิ่มประสิทธิภาพในการวางแผนเส้นทาง และการกำหนดวิธีที่ดีที่สุดในการหยิบจับวัตถุ
ทางบริษัทระบุด้วยว่าโมเดลนี้ทำงานได้ดีภายใต้ข้อจำกัดและสามารถใช้เหตุผลผ่านคำสั่งที่ซับซ้อนได้ เช่น “จงชี้ไปที่วัตถุทุกชิ้นที่มีขนาดเล็กพอที่จะใส่ลงในถ้วยสีน้ำเงินได้” นอกเหนือจากการทำให้หุ่นยนต์เคลื่อนที่แล้ว นักวิจัยของ DeepMind ยังได้เพิ่มความสามารถของโมเดลในการทำความเข้าใจและอ่านค่าจากสิ่งต่าง ๆ เช่น เกจวัดและเครื่องมือวัด ซึ่งต้องใช้การใช้เหตุผลด้วยภาพที่ซับซ้อน อีกทั้งยังเป็นพื้นฐานสำหรับการปฏิบัติงานภายในสภาพแวดล้อมต่าง ๆ เช่น โรงงาน คลังสินค้า และแม้แต่พื้นที่ในที่พักอาศัยอย่างบ้านเรือน
ในหลายกรณี เกจวัดจะมีทั้งเข็ม ขีดเครื่องหมาย ตัวเลขที่สลักไว้อย่างละเอียด และตัวบ่งชี้อื่น ๆ (และบางครั้งก็มีคำสั่ง) ที่ต้องได้รับการตีความเพื่อทำความเข้าใจลักษณะของค่าที่อ่านได้อย่างครบถ้วน
“ความสามารถอย่างการอ่านเครื่องมือวัดและการใช้เหตุผลในงานที่น่าเชื่อถือมากขึ้น จะช่วยให้ Spot สามารถมองเห็น ทำความเข้าใจ และตอบสนองต่อความท้าทายในโลกแห่งความเป็นจริงได้อย่างเป็นอิสระโดยสมบูรณ์” Marco da Silva รองประธานและผู้จัดการทั่วไปของ Spot แห่ง Boston Dynamics ซึ่งเป็นหุ่นยนต์คล้ายสุนัขที่บริษัทพัฒนาขึ้นกล่าว
DeepMind กล่าวว่า Robotics-ER 1.6 บรรลุความแม่นยำระดับนี้ผ่านการมองเห็นแบบเอเจนต์ ซึ่งผสมผสานการใช้เหตุผลด้วยภาพเข้ากับการรันโค้ด โมเดลจะทำการบันทึกภาพนิ่ง ตีความรายละเอียดที่ชัดเจน จากนั้นใช้โค้ดที่ได้รับการดูแลอย่างพิถีพิถันเพื่อประมาณค่าสัดส่วนและระยะห่างเพื่อให้ได้การอ่านค่าที่แม่นยำ และสุดท้ายจึงใช้กลไกการให้เหตุผลเพื่อตีความค่าที่อ่านได้นั้น
ตั้งแต่วันนี้เป็นต้นไป นักพัฒนาสามารถเข้าถึง ER 1.6 ได้แล้วผ่าน Gemini API และ Google AI Studio
ที่มา: https://siliconangle.com/2026/04/15/deepmind-launches-gemini-robotics-er-1-6-meet-precise-physical-ai-demands/
TechTalkThai ศูนย์รวมข่าว Enterprise IT ออนไลน์แห่งแรกในประเทศไทย






