Microsoft Azure by Ingram Micro (Thailand)

Google เปิดตัวสองโมเดล AI ใหม่สำหรับหุ่นยนต์

Google ได้เปิดตัวโมเดลปัญญาประดิษฐ์ใหม่สองตัว ได้แก่ Gemini Robotics และ Gemini Robotics-ER ซึ่งได้รับการออกแบบมาเพื่อขับเคลื่อนเครื่องจักรอัตโนมัติ

Credit: Google

อัลกอริทึมเหล่านี้อ้างอิงจากโมเดลภาษาใหญ่ (LLM) ในซีรีส์ Gemini 2.0 ของบริษัท ซึ่งเปิดตัวเมื่อเดือนธันวาคมที่ผ่านมา LLM เหล่านี้สามารถประมวลผลได้ทั้งข้อความและข้อมูลมัลติโหมดในรูปแบบวิดีโอ ความสามารถนี้ทำให้โมเดล Gemini Robotics และ Gemini Robotics-ER สามารถวิเคราะห์ภาพจากกล้องของหุ่นยนต์เพื่อใช้ในการตัดสินใจได้

Gemini Robotics เป็นโมเดลการมองเห็น-ภาษา-การกระทำ (vision-language-action) โดย Google ระบุว่าหุ่นยนต์ที่ใช้โมเดลนี้สามารถทำงานที่ซับซ้อนได้จากคำสั่งภาษาธรรมชาติ ตัวอย่างเช่น ผู้ใช้สามารถขอให้ AI พับกระดาษเป็นรูปร่างโอริกามิหรือวางสิ่งของลงในถุงซิปล็อคได้

ในอดีต การสอนงานใหม่ให้หุ่นยนต์ในอุตสาหกรรมต้องอาศัยการเขียนโปรแกรมสำหรับงานนั้น ๆ ซึ่งต้องใช้ทักษะเฉพาะทางและใช้เวลามาก เพื่อลดความยุ่งยากในกระบวนการกำหนดค่าหุ่นยนต์ นักวิจัยของ Google ได้ออกแบบ Gemini Robotics โดยคำนึงถึงความครอบคลุม บริษัทระบุว่า AI นี้สามารถทำงานที่ไม่ได้ถูกสอนในระหว่างการฝึก ซึ่งช่วยลดความจำเป็นในการเขียนโปรแกรมเอง

เพื่อทดสอบว่า Gemini Robotics สามารถตอบสนองต่อภารกิจใหม่ได้ดีเพียงใด Google ได้ประเมินโมเดลโดยใช้เกณฑ์วัดความสามารถทั่วไปของ AI ผลลัพธ์พบว่าอัลกอริทึมนี้มีประสิทธิภาพมากกว่าโมเดลการมองเห็น-ภาษา-การกระทำรุ่นก่อนหน้าถึงสองเท่า ตามที่ Google ระบุ Gemini Robotics ไม่เพียงแต่สามารถทำงานที่ไม่ได้ถูกสอนให้ทำเท่านั้น แต่ยังสามารถปรับเปลี่ยนวิธีการดำเนินงานเมื่อสภาพแวดล้อมเปลี่ยนแปลงได้

“หากวัตถุหลุดจากการจับของหุ่นยนต์ หรือมีคนขยับสิ่งของ Gemini Robotics สามารถปรับแผนใหม่และดำเนินงานต่อไปได้ ซึ่งเป็นความสามารถที่สำคัญสำหรับหุ่นยนต์ในโลกความเป็นจริงที่เต็มไปด้วยความไม่แน่นอน” Carolina Parada หัวหน้าฝ่ายหุ่นยนต์ของ Google DeepMind กล่าวในบล็อกโพสต์

โมเดล AI ใหม่อีกตัวที่เปิดตัวในวันนี้คือ Robotics-ER ซึ่งได้รับการออกแบบมาเพื่อรองรับการให้เหตุผลเชิงพื้นที่ แนวคิดนี้หมายถึงกระบวนการคำนวณที่ซับซ้อนที่หุ่นยนต์ต้องดำเนินการก่อนทำงาน เช่น การหยิบแก้วกาแฟต้องอาศัยแขนกลในการค้นหาหูจับและคำนวณมุมที่เหมาะสมสำหรับการหยิบจับ

หลังจากวางแผนการดำเนินงานเสร็จสิ้น Gemini Robotics-ER จะใช้ความสามารถด้านการเขียนโค้ดของ Gemini 2.0 เพื่อแปลงแผนให้เป็นสคริปต์การกำหนดค่า ซึ่งใช้ในการตั้งค่าหุ่นยนต์ที่ติดตั้ง AI นี้ หากงานใดซับซ้อนเกินไปสำหรับ Gemini Robotics-ER นักพัฒนาสามารถสอน AI เกี่ยวกับแนวทางที่ดีที่สุดโดยใช้ “ตัวอย่างจากมนุษย์เพียงไม่กี่ครั้ง”

“Gemini Robotics-ER สามารถดำเนินกระบวนการควบคุมหุ่นยนต์ได้อย่างครบวงจร ตั้งแต่การรับรู้ การประมาณสถานะ ความเข้าใจเชิงพื้นที่ การวางแผน และการสร้างโค้ด” Parada เขียน “ในสภาพแวดล้อมที่ครอบคลุมแบบนี้ โมเดลสามารถเพิ่มอัตราความสำเร็จได้ 2-3 เท่าเมื่อเทียบกับ Gemini 2.0”

Google จะเปิดให้พันธมิตรหลายรายเข้าถึง Gemini Robotics-ER รวมถึง Apptronik สตาร์ทอัพด้านหุ่นยนต์ฮิวแมนนอยด์ที่เพิ่งระดมทุนได้ 350 ล้านดอลลาร์เมื่อเดือนที่แล้ว ซึ่งในรอบการลงทุนดังกล่าว Google ได้เข้าร่วมเป็นนักลงทุนด้วย และจะร่วมมือกับ Apptronik ในการพัฒนาหุ่นยนต์ฮิวแมนนอยด์ที่ใช้ Gemini 2.0

ที่มา: https://siliconangle.com/2025/03/12/google-debuts-two-new-ai-models-powering-robots/

About นักเขียนฝึกหัดหมายเลขเก้า

Check Also

Brother ประกาศวิสัยทัศน์ “ทรานส์ฟอร์มเพื่ออนาคตที่ยั่งยืน” พร้อมตั้งเป้าโต 7% ในปี 2568

Brother ผู้นำโซลูชันด้านการพิมพ์จากประเทศญี่ปุ่นที่ดำเนินธุรกิจในประเทศไทยมากว่า 28 ปีแล้ว ล่าสุดปลายสัปดาห์ที่ผ่านมาได้ประกาศความสำเร็จโดยปิดปีงบประมาณ 2567 เติบโตโดยภาพรวมถึง 9% สูงกว่าตลาดโดยรวมเกือบ 2 เท่า พร้อมประกาศวิสัยทัศน์ “Transforming for a …

การ์ทเนอร์คาดการณ์ อีกสองปี AI Agents จะทำให้เวลาที่ใช้โจมตีช่องโหว่ของบัญชีลดลงถึง 50% [PR]  

การ์ทเนอร์คาดการณ์ในอีกสองปีข้างหน้านี้ (พ.ศ.2570) AI Agents จะลดเวลาในการโจมตีช่องโหว่ของบัญชีลง 50%