Robotic Foundation Model คืออะไร

Robotic Foundation Model เป็นเทคโนโลยีที่กำลังทวีความร้อนแรงขึ้นในปีที่ผ่านมา ซึ่งมีสตาร์ทอัปหลายแห่งที่กำลังพยายามฝ่ากำแพงเพื่อไปให้ถึงเส้นชัย โดยบริษัทเหล่านี้สามารถระดมทุนจากบริษัทใหญ่ได้ถึงหลายร้อยล้านเหรียญฯสหรัฐในแต่ละรอบ ในบทความนี้เราจะขอถอดความหมายของคำว่า Robotic Foundation Model และเทรนด์ของตลาด ณ ขณะนี้ (2025)

ก่อนที่เราจะก้าวไปถึงคำศัพท์ที่เราตั้งโจทย์ไว้ข้างต้น เราต้องเข้าใจรากฐานของ Foundation Model เสียก่อน โดยนิยามก็คือโมเดลด้าน Machine Learning หรือ deep learning (หากดูจริง deep learning ก็อยู่ในส่วนหนึ่งของ Machine Learning) ซึ่งโมเดลได้ถูกสอนให้สามารถทำงานได้หลากหลายกว้างขวาง ที่เห็นได้ชัด ณ ปัจจุบันก็คือ Generative AI อย่าง Large Language Model (LLM) แต่หยุดก่อน.. ในบทความนี้เราไม่ต้องการให้ใครหลงประเด็นไปตีกรอบแค่ LLM เพราะ Foundation Model สามารถนำไปใช้ได้มากกว่านั้น

เครดิต : NVidia

ปัจจัยที่สำคัญต่อการทำงานของ Foundation Model มีอยู่ 2 ประเด็นนั่นคือพลังด้านฮาร์ดแวร์ที่ต้องมากพอสำหรับการประมวลผลซึ่งเมื่อเราตั้งเป้าให้โมเดลทำงานได้มาก ย่อมหมายถึงปริมาณข้อมูลที่มหาศาลเช่นกัน อีกส่วนหนึ่งก็คือสิ่งที่เรียกว่า Transfer Learning ที่อ้างถึงความสามารถของโมเดลในการประยุกต์ข้อมูลจากสถานการณ์หนึ่งสู่สถานการณ์หนึ่งด้วยข้อมูลที่มี มี 2 เทคนิคที่เป็นที่นิยมกันในการสร้าง Foundation Model

  • Deep Learning – Foundation Model หลายตัวที่ใช้ในกลุ่ม Natural Language Processing(NLP), Computer Vision และ Audio Processing อาศัยการสอนโมเดลด้วย Deep Learning ซึ่งเป็นการสอนคอมพิวเตอร์ด้วยการเฝ้าสังเกต จำลองวิธีการของมนุษย์
  • Transformers – transformer architecture เป็นวิธีการยอดฮิตสำหรับสร้าง Foundation Model เกี่ยวกับ Text ตัวอย่างเช่น ChatGPT, BERT และ DALL-E 2 โดย Transformer ได้ยกระดับความสามารถของโมเดลด้าน Machine Learning ให้สามารถจับความสัมพันธ์ของบริบทและความเกี่ยวข้องระหว่างองค์ประกอบในลำดับของข้อมูล

งานที่สามารถสร้าง Foundation Model ขึ้นมาช่วยเหลือได้ตัวอย่างเช่น

  • NLP – ช่วยในการจดจำแกรม โคงสร้างภาษา บริบทของภาษา โดยผู้สนใจสามารถนำไปต่อยอดในการวิเคราะห์ทางธุรกิจได้อย่าง รีวิวในโลกออนไลน์ โพสต์โซเชียลมีเดีย หรือความพึงพอใจจากลูกค้า
  • Computer Vision – การมีโมเดลพื้นฐานที่สามารถจดจำรูปร่างพื้นๆและคุณสมบัติของวัตถุ สามารถต่อยอดสู่การใช้งานขั้นสูงได้ เช่น ใบหน้า รูปภาพ หรือแม้แต่การสร้างรูปใหม่จากรูปแบบที่เรียนรู้มา
  • Audio/Speech – โมเดลพื้นฐานสามารถจดจำองค์ประกอบการออกเสียงที่นำไปสู่การเข้าใจความหมายทำให้สื่อสารได้อย่างมีประสิทธิภาพ เช่น ผู้ช่วยเสมือน การเข้าใจหลายภาษา คำสั่งเสียง หรือการขึ้นบทบรรยายเพื่อช่วยเหลือผู้พิการ และอื่นๆ โดยผู้สนใจสามารถปรับจูน Foundation Model ให้มีความเฉพาะทางได้มากขึ้น เช่น งานตรวจจับการหลอกลวงในธุรกิจการเงิน ลำดับของยีนส์ในงาน Healthcare หรือ แชทบอทสำหรับให้บริการลูกค้า เป็นต้น

ไม่ต้องสงสัยเลยว่า Foundation Model ที่รู้รอบ มักต้องอาศัยข้อมูลจำนวนมหาศาลแถมยังต้องเป็นข้อมูลคุณภาพด้วย โดยขั้นตอนทั้งหมดย่อมต้องมีผู้เชี่ยวชาญทั้ง Data Scientist หรือความรู้เฉพาะสาขานั้น นอกจากนี้ยังต้องมีการปรับจูนคุณภาพให้โมเดลมีความแม่นยำด้วย ซึ่งทั้งหมดนี้จะต้องอาศัยฮาร์ดแวร์ประสิทธิภาพสูงบนการแบกภาระต้นทุนมหาศาล นั่นจึงเป็นเรื่องยากที่มีผู้แข่งขันได้ไม่มาก แต่เมื่อ Foundation Model สมบูรณ์แล้วจะช่วยลดต้นทุนในการเริ่มต้นตรงนี้ได้อย่างมาก ยกตัวอย่างเช่น โมเดล LLM โอเพ่นซอร์ส ที่มีสินค้าต่างๆมีการนำไป OEM ในผลิตภัณฑ์ของตน ปรับปรุงด้วยข้อมูลภายในขององค์กร เป็นต้น

Robotic Foundation Model ก็คือ Foundation Model ที่ถูกคิดค้นมาสำหรับงานหุ่นยนต์ หากยังดูไม่ตื่นเต้นมากนัก ต้องขออธิบายต่อไปว่า นี่กำลังเป็นยุคที่น่าตื่นตาตื่นใจที่เราอาจจะได้เห็นหุ่นยนต์สามารถทำงานในชีวิตประจำวันของเราได้จริง เช่น ล้างจาน ถูบ้าน แน่นอนว่าหุ่นยนต์ในปัจจุบันย่อมมีซอฟต์แวร์ประมวลผล ซึ่งปัจจุบันเรามักพยายามสอนหุ่นยนต์ให้พยายามทำอะไรบางอย่างที่เฉพาะเจาะจง แต่ถ้า Robotic Foundation Model เกิดขึ้น นั่นหมายความว่าผู้ผลิตหุ่นยนต์หรือผู้สนใจสามารถหยิบ Robotic Foundation Model ไปต่อยอดให้เป็นงานที่เราต้องการได้ อย่าลืมว่าหุ่นยนต์ต้องเกี่ยวข้องกับกิจกรรมหลายอย่าง เช่น การเข้าใจภาพวัตถุ การรับรู้ถึงสภาพแวดล้อม และอื่นๆไม่ใช่แค่การถาม-ตอบ ที่เราเห็นใน chatGPT

นอกเหนือจากเรื่องของทรัพยากรตามคอนเซปต์ของ Foundation Model แล้ว บริบทของงานหุ่นยนต์เป็นอะไรที่ท้าทาย เพราะผู้สร้างไม่สามารถกวาดข้อมูลสำหรับการเรียนรู้เข้ามาได้รวดเร็วเหมือนในสาขาของ LLM ที่ข้อมูลหาได้ตามอินเทอร์เน็ต ซึ่งโดยปกติแล้วเรามักจำลองให้หุ่นยนต์ทำตามที่มนุษย์พยายามสอน ซึ่งประเด็นที่เห็นได้ชัดก็คือกว่าที่เราจะมีรถยนต์อัตโนมัติที่ใช้งานได้จริง ก็ต้องผ่านระยะเวลาพัฒนานานนับสิบปี กล่าวได้ว่าข้อมูลสำหรับการสอนหุ่นยนต์คือข้อจำกัดใหญ่ที่ทำให้งานล่าช้า และแม้จะได้ข้อมูลจำนวนมากแต่ก็อาจต้องใช้คนมาตรวจสอบคุณภาพของข้อมูลอีก

แม้ในช่วงแรกการพัฒนาโมเดลอาจเป็นไปได้อย่างก้าวกระโดดเรียกได้ว่าน่าตกใจ แต่ความล่าช้าจะเกิดขึ้นในช่วงของการปรับจูนโมเดลให้มีความแม่นยำในระดับสูง ในช่วงเวลานี้เองระยะเวลาอาจนานถึงหลายปี และก็ยังย้อนกลับมาที่ความต้องการด้านข้อมูลอยู่ดี

อย่างไรก็ตามแม้ Robotic Foundation Model จะเป็นแนวคิดที่ยอดเยี่ยม ทั้งนี้โดยส่วนใหญ่แล้วแทบทั้งหมดคือการพัฒนา AI ไม่ใช่ฮาร์ดแวร์ ดังนั้นสุดท้ายแล้วลูกค้าก็คือกลุ่มผู้พัฒนาหุ่นยนต์นั่นเอง ดังนั้นการลงทุนของบริษัทใหญ่กับ Robotic Foundation Model จะเกิดขึ้นอย่างมหาศาลก็ต่อเมื่อมีจำนวนหุ่นยนต์ในท้องตลาดจำนวนมากด้วย ซึ่งปัจจุบันตัวหุ่นยนต์ส่วนใหญ่ยังเป็นการทำงานแบบเฉพาะทาง แต่ในอนาคตเราอาจได้เห็นหุ่นยนต์ที่ทำงานทั่วไปได้และพบเห็นได้มากขึ้นในการใช้ชีวิต

ความหวังของตลาด Robotic Foundation Model ยังไม่เป็นรูปเป็นร่างที่ชัดเจน แต่ก็มีแนวคิดใหม่ๆที่กำลังเร่งให้วงจรการพัฒนาหุ่นยนต์ต่างออกไปจากที่เคย เช่น transformer architecture ที่อาจทำให้การจำลองเรียนรู้หลายร้อยครั้งลดลงเหลือเพียงหลักสิบครั้งแต่ได้ผลลัพธ์เหมือนกัน ตลอดจนไอเดียของ Diffusion models หรือการเรียนรู้ด้วยตัวเองของหุ่นยนต์ ดังนั้นก็เป็นเรื่องยากที่จะคาดการณ์อนาคตของการกำเนิดขึ้นจริงของเทคโนโลยีนี้ อาจจะใช้เวลาถึงสิบปีหรือเป็นไปได้ในไม่กี่ปีข้างหน้า เพราะเราจะเห็นได้ว่ามีนวัตกรรมใหม่เกิดขึ้นได้เสมอ

ที่มา : https://www.redhat.com/en/topics/ai/what-are-foundation-models และ https://en.wikipedia.org/wiki/Foundation_model และ https://blogs.nvidia.com/blog/what-are-foundation-models/ และ https://medium.com/@bp_64302/this-business-of-robotics-foundation-models-cb4bdede1444 และ https://www.interconnects.ai/p/robotic-foundation-models

About nattakon

จบการศึกษา ปริญญาตรีและโท สาขาวิศวกรรมคอมพิวเตอร์ KMITL เคยทำงานด้าน Engineer/Presale ดูแลผลิตภัณฑ์ด้าน Network Security และ Public Cloud ในประเทศ ปัจจุบันเป็นนักเขียน Full-time ที่ TechTalkThai

Check Also

Google Cloud เพิ่ม BigQuery datasets บน Marketplace แล้ว

Google Cloud ประกาศเปิดให้ผู้ใช้งานสามารถเข้าถึงชุดข้อมูล BigQuery datasets ผ่าน Google Cloud Marketplace ด้วยการผสานการทำงานร่วมกับ BigQuery Analytics Hub เพื่อเพิ่มช่องทางการเข้าถึงข้อมูลสำหรับองค์กร

Goldman Sachs คาดการณ์การใช้พลังงานของศูนย์ข้อมูลจะเพิ่มขึ้นกว่า 2 เท่าภายในปี 2030 เหตุจาก AI

การแข่งขันด้าน AI ส่งผลให้ความต้องการใช้พลังงานในศูนย์ข้อมูลทั่วโลกพุ่งสูงขึ้นอย่างมาก โดย Goldman Sachs คาดว่าจะเพิ่มขึ้นจาก 55 GW เป็น 122 GW ภายในปี 2030