Google DeepMind เปิดตัว Gemini Robotics-ER 1.6 สนองความต้องการ Physical AI ที่แม่นยำ

Google DeepMind แผนกวิจัยปัญญาประดิษฐ์ของ Alphabet ได้เปิดตัวโมเดล AI พื้นฐานสำหรับหุ่นยนต์รุ่นใหม่ ซึ่งออกแบบมาเพื่อเป็นการอัปเกรดครั้งสำคัญในการทำความเข้าใจและการใช้เหตุผลเชิงพื้นที่อย่างแม่นยำ

Credit: Google

โมเดลใหม่นี้มีชื่อว่า Gemini Robotics-ER 1.6 จาก Gemini Robotics โดยจะช่วยเพิ่มประสิทธิภาพการใช้เหตุผลเชิงพื้นที่และการทำความเข้าใจแบบหลายมุมมอง เพื่อสร้างความเป็นอิสระในการตัดสินใจที่มากขึ้นให้กับหุ่นยนต์และเอเจนต์เชิงกายภาพทุกประเภท

DeepMind กล่าวว่าโมเดลนี้มอบความสามารถในการใช้เหตุผลระดับสูงสำหรับงานด้านหุ่นยนต์ โดยทำหน้าที่เป็นเลเยอร์สำหรับการวางแผนงานและการเรียกใช้เครื่องมือ ซึ่งรวมถึงเครื่องมือพื้นฐานสำหรับ Google Search เพื่อค้นหาข้อมูล โมเดล vision-language-action และฟังก์ชันอื่น ๆ ที่ผู้ใช้กำหนดเองจากบุคคลที่สามเพื่อขยายขีดความสามารถ

ตัวอย่างของการปรับปรุง ได้แก่ การตรวจจับวัตถุที่มีความแม่นยำ การจัดหมวดหมู่ และการตรวจจับ ซึ่งเป็นสิ่งจำเป็นสำหรับหุ่นยนต์ในการเลือกและหยิบจับสิ่งของ โดยเฉพาะสำหรับการคัดแยกพัสดุหรือการทำความสะอาดห้องที่รกรุงรัง นอกจากนี้ยังมีความสำคัญในด้านตรรกะเชิงความสัมพันธ์ เช่น การเปรียบเทียบ ตัวอย่างเช่น การระบุวัตถุที่เล็กที่สุดในกลุ่ม หรือการกำหนดความสัมพันธ์ “จาก-ไป” เมื่อต้องย้ายวัตถุ X ไปยังตำแหน่ง Y สิ่งนี้ควบคู่ไปกับการเพิ่มประสิทธิภาพในการวางแผนเส้นทาง และการกำหนดวิธีที่ดีที่สุดในการหยิบจับวัตถุ

ทางบริษัทระบุด้วยว่าโมเดลนี้ทำงานได้ดีภายใต้ข้อจำกัดและสามารถใช้เหตุผลผ่านคำสั่งที่ซับซ้อนได้ เช่น “จงชี้ไปที่วัตถุทุกชิ้นที่มีขนาดเล็กพอที่จะใส่ลงในถ้วยสีน้ำเงินได้” นอกเหนือจากการทำให้หุ่นยนต์เคลื่อนที่แล้ว นักวิจัยของ DeepMind ยังได้เพิ่มความสามารถของโมเดลในการทำความเข้าใจและอ่านค่าจากสิ่งต่าง ๆ เช่น เกจวัดและเครื่องมือวัด ซึ่งต้องใช้การใช้เหตุผลด้วยภาพที่ซับซ้อน อีกทั้งยังเป็นพื้นฐานสำหรับการปฏิบัติงานภายในสภาพแวดล้อมต่าง ๆ เช่น โรงงาน คลังสินค้า และแม้แต่พื้นที่ในที่พักอาศัยอย่างบ้านเรือน

ในหลายกรณี เกจวัดจะมีทั้งเข็ม ขีดเครื่องหมาย ตัวเลขที่สลักไว้อย่างละเอียด และตัวบ่งชี้อื่น ๆ (และบางครั้งก็มีคำสั่ง) ที่ต้องได้รับการตีความเพื่อทำความเข้าใจลักษณะของค่าที่อ่านได้อย่างครบถ้วน

“ความสามารถอย่างการอ่านเครื่องมือวัดและการใช้เหตุผลในงานที่น่าเชื่อถือมากขึ้น จะช่วยให้ Spot สามารถมองเห็น ทำความเข้าใจ และตอบสนองต่อความท้าทายในโลกแห่งความเป็นจริงได้อย่างเป็นอิสระโดยสมบูรณ์” Marco da Silva รองประธานและผู้จัดการทั่วไปของ Spot แห่ง Boston Dynamics ซึ่งเป็นหุ่นยนต์คล้ายสุนัขที่บริษัทพัฒนาขึ้นกล่าว

DeepMind กล่าวว่า Robotics-ER 1.6 บรรลุความแม่นยำระดับนี้ผ่านการมองเห็นแบบเอเจนต์ ซึ่งผสมผสานการใช้เหตุผลด้วยภาพเข้ากับการรันโค้ด โมเดลจะทำการบันทึกภาพนิ่ง ตีความรายละเอียดที่ชัดเจน จากนั้นใช้โค้ดที่ได้รับการดูแลอย่างพิถีพิถันเพื่อประมาณค่าสัดส่วนและระยะห่างเพื่อให้ได้การอ่านค่าที่แม่นยำ และสุดท้ายจึงใช้กลไกการให้เหตุผลเพื่อตีความค่าที่อ่านได้นั้น

ตั้งแต่วันนี้เป็นต้นไป นักพัฒนาสามารถเข้าถึง ER 1.6 ได้แล้วผ่าน Gemini API และ Google AI Studio

ที่มา: https://siliconangle.com/2026/04/15/deepmind-launches-gemini-robotics-er-1-6-meet-precise-physical-ai-demands/

About นักเขียนฝึกหัดหมายเลขเก้า

Check Also

Zchoolmate บุก ตลาดติวเตอร์ไทย เปิดตัว Tutormate ระบบบริหารจัดการคอร์สเรียน [PR]

ในยุคที่เทคโนโลยีดิจิทัลเข้ามามีบทบาทสำคัญในการขับเคลื่อนภาคการศึกษาของประเทศไทยอย่างก้าวกระโดด บริษัท ซคูลเมท เอ็ดดูเคชั่น จำกัด (ZCHOOLMATE EDUCATION Company Limited) ผู้เชี่ยวชาญด้านการพัฒนาระบบบริหารจัดการสถานศึกษาที่มีประสบการณ์ยาวนานกว่าหนึ่งทศวรรษ ได้ประกาศความสำเร็จในการก้าวเข้าสู่เซกเมนต์ใหม่ด้วยการเปิดตัวแพลตฟอร์ม “Tutormate” ซึ่งเป็นเว็บแอปพลิเคชันที่ได้รับการออกแบบมาเพื่อยกระดับมาตรฐานการบริหารจัดการสำหรับติวเตอร์อิสระและโรงเรียนกวดวิชาโดยเฉพาะ นับเป็นการประยุกต์เอาองค์ความรู้จากระบบบริหารโรงเรียนครบวงจรอย่าง Zchoolmate …

OpsMill ผู้สร้าง ‘Infrahub’ ระดมทุน 14 ล้านดอลลาร์ ช่วยเอเจนต์ AI เห็นโครงสร้างพื้นฐานทั้งองค์กรในภาพเดียว

OpsMill สตาร์ทอัพด้านการจัดการข้อมูลโครงสร้างพื้นฐาน ประกาศระดมทุนรอบใหม่มูลค่า 14 ล้านดอลลาร์ เพื่อขยายแพลตฟอร์มการจัดการข้อมูลโครงสร้างพื้นฐานที่มุ่งทำให้สภาพแวดล้อมไอทีขององค์กรพร้อมสำหรับระบบอัตโนมัติที่ขับเคลื่อนด้วยปัญญาประดิษฐ์