Robotic Foundation Model คืออะไร

Robotic Foundation Model เป็นเทคโนโลยีที่กำลังทวีความร้อนแรงขึ้นในปีที่ผ่านมา ซึ่งมีสตาร์ทอัปหลายแห่งที่กำลังพยายามฝ่ากำแพงเพื่อไปให้ถึงเส้นชัย โดยบริษัทเหล่านี้สามารถระดมทุนจากบริษัทใหญ่ได้ถึงหลายร้อยล้านเหรียญฯสหรัฐในแต่ละรอบ ในบทความนี้เราจะขอถอดความหมายของคำว่า Robotic Foundation Model และเทรนด์ของตลาด ณ ขณะนี้ (2025)

ก่อนที่เราจะก้าวไปถึงคำศัพท์ที่เราตั้งโจทย์ไว้ข้างต้น เราต้องเข้าใจรากฐานของ Foundation Model เสียก่อน โดยนิยามก็คือโมเดลด้าน Machine Learning หรือ deep learning (หากดูจริง deep learning ก็อยู่ในส่วนหนึ่งของ Machine Learning) ซึ่งโมเดลได้ถูกสอนให้สามารถทำงานได้หลากหลายกว้างขวาง ที่เห็นได้ชัด ณ ปัจจุบันก็คือ Generative AI อย่าง Large Language Model (LLM) แต่หยุดก่อน.. ในบทความนี้เราไม่ต้องการให้ใครหลงประเด็นไปตีกรอบแค่ LLM เพราะ Foundation Model สามารถนำไปใช้ได้มากกว่านั้น

เครดิต : NVidia

ปัจจัยที่สำคัญต่อการทำงานของ Foundation Model มีอยู่ 2 ประเด็นนั่นคือพลังด้านฮาร์ดแวร์ที่ต้องมากพอสำหรับการประมวลผลซึ่งเมื่อเราตั้งเป้าให้โมเดลทำงานได้มาก ย่อมหมายถึงปริมาณข้อมูลที่มหาศาลเช่นกัน อีกส่วนหนึ่งก็คือสิ่งที่เรียกว่า Transfer Learning ที่อ้างถึงความสามารถของโมเดลในการประยุกต์ข้อมูลจากสถานการณ์หนึ่งสู่สถานการณ์หนึ่งด้วยข้อมูลที่มี มี 2 เทคนิคที่เป็นที่นิยมกันในการสร้าง Foundation Model

  • Deep Learning – Foundation Model หลายตัวที่ใช้ในกลุ่ม Natural Language Processing(NLP), Computer Vision และ Audio Processing อาศัยการสอนโมเดลด้วย Deep Learning ซึ่งเป็นการสอนคอมพิวเตอร์ด้วยการเฝ้าสังเกต จำลองวิธีการของมนุษย์
  • Transformers – transformer architecture เป็นวิธีการยอดฮิตสำหรับสร้าง Foundation Model เกี่ยวกับ Text ตัวอย่างเช่น ChatGPT, BERT และ DALL-E 2 โดย Transformer ได้ยกระดับความสามารถของโมเดลด้าน Machine Learning ให้สามารถจับความสัมพันธ์ของบริบทและความเกี่ยวข้องระหว่างองค์ประกอบในลำดับของข้อมูล

งานที่สามารถสร้าง Foundation Model ขึ้นมาช่วยเหลือได้ตัวอย่างเช่น

  • NLP – ช่วยในการจดจำแกรม โคงสร้างภาษา บริบทของภาษา โดยผู้สนใจสามารถนำไปต่อยอดในการวิเคราะห์ทางธุรกิจได้อย่าง รีวิวในโลกออนไลน์ โพสต์โซเชียลมีเดีย หรือความพึงพอใจจากลูกค้า
  • Computer Vision – การมีโมเดลพื้นฐานที่สามารถจดจำรูปร่างพื้นๆและคุณสมบัติของวัตถุ สามารถต่อยอดสู่การใช้งานขั้นสูงได้ เช่น ใบหน้า รูปภาพ หรือแม้แต่การสร้างรูปใหม่จากรูปแบบที่เรียนรู้มา
  • Audio/Speech – โมเดลพื้นฐานสามารถจดจำองค์ประกอบการออกเสียงที่นำไปสู่การเข้าใจความหมายทำให้สื่อสารได้อย่างมีประสิทธิภาพ เช่น ผู้ช่วยเสมือน การเข้าใจหลายภาษา คำสั่งเสียง หรือการขึ้นบทบรรยายเพื่อช่วยเหลือผู้พิการ และอื่นๆ โดยผู้สนใจสามารถปรับจูน Foundation Model ให้มีความเฉพาะทางได้มากขึ้น เช่น งานตรวจจับการหลอกลวงในธุรกิจการเงิน ลำดับของยีนส์ในงาน Healthcare หรือ แชทบอทสำหรับให้บริการลูกค้า เป็นต้น

ไม่ต้องสงสัยเลยว่า Foundation Model ที่รู้รอบ มักต้องอาศัยข้อมูลจำนวนมหาศาลแถมยังต้องเป็นข้อมูลคุณภาพด้วย โดยขั้นตอนทั้งหมดย่อมต้องมีผู้เชี่ยวชาญทั้ง Data Scientist หรือความรู้เฉพาะสาขานั้น นอกจากนี้ยังต้องมีการปรับจูนคุณภาพให้โมเดลมีความแม่นยำด้วย ซึ่งทั้งหมดนี้จะต้องอาศัยฮาร์ดแวร์ประสิทธิภาพสูงบนการแบกภาระต้นทุนมหาศาล นั่นจึงเป็นเรื่องยากที่มีผู้แข่งขันได้ไม่มาก แต่เมื่อ Foundation Model สมบูรณ์แล้วจะช่วยลดต้นทุนในการเริ่มต้นตรงนี้ได้อย่างมาก ยกตัวอย่างเช่น โมเดล LLM โอเพ่นซอร์ส ที่มีสินค้าต่างๆมีการนำไป OEM ในผลิตภัณฑ์ของตน ปรับปรุงด้วยข้อมูลภายในขององค์กร เป็นต้น

Robotic Foundation Model ก็คือ Foundation Model ที่ถูกคิดค้นมาสำหรับงานหุ่นยนต์ หากยังดูไม่ตื่นเต้นมากนัก ต้องขออธิบายต่อไปว่า นี่กำลังเป็นยุคที่น่าตื่นตาตื่นใจที่เราอาจจะได้เห็นหุ่นยนต์สามารถทำงานในชีวิตประจำวันของเราได้จริง เช่น ล้างจาน ถูบ้าน แน่นอนว่าหุ่นยนต์ในปัจจุบันย่อมมีซอฟต์แวร์ประมวลผล ซึ่งปัจจุบันเรามักพยายามสอนหุ่นยนต์ให้พยายามทำอะไรบางอย่างที่เฉพาะเจาะจง แต่ถ้า Robotic Foundation Model เกิดขึ้น นั่นหมายความว่าผู้ผลิตหุ่นยนต์หรือผู้สนใจสามารถหยิบ Robotic Foundation Model ไปต่อยอดให้เป็นงานที่เราต้องการได้ อย่าลืมว่าหุ่นยนต์ต้องเกี่ยวข้องกับกิจกรรมหลายอย่าง เช่น การเข้าใจภาพวัตถุ การรับรู้ถึงสภาพแวดล้อม และอื่นๆไม่ใช่แค่การถาม-ตอบ ที่เราเห็นใน chatGPT

นอกเหนือจากเรื่องของทรัพยากรตามคอนเซปต์ของ Foundation Model แล้ว บริบทของงานหุ่นยนต์เป็นอะไรที่ท้าทาย เพราะผู้สร้างไม่สามารถกวาดข้อมูลสำหรับการเรียนรู้เข้ามาได้รวดเร็วเหมือนในสาขาของ LLM ที่ข้อมูลหาได้ตามอินเทอร์เน็ต ซึ่งโดยปกติแล้วเรามักจำลองให้หุ่นยนต์ทำตามที่มนุษย์พยายามสอน ซึ่งประเด็นที่เห็นได้ชัดก็คือกว่าที่เราจะมีรถยนต์อัตโนมัติที่ใช้งานได้จริง ก็ต้องผ่านระยะเวลาพัฒนานานนับสิบปี กล่าวได้ว่าข้อมูลสำหรับการสอนหุ่นยนต์คือข้อจำกัดใหญ่ที่ทำให้งานล่าช้า และแม้จะได้ข้อมูลจำนวนมากแต่ก็อาจต้องใช้คนมาตรวจสอบคุณภาพของข้อมูลอีก

แม้ในช่วงแรกการพัฒนาโมเดลอาจเป็นไปได้อย่างก้าวกระโดดเรียกได้ว่าน่าตกใจ แต่ความล่าช้าจะเกิดขึ้นในช่วงของการปรับจูนโมเดลให้มีความแม่นยำในระดับสูง ในช่วงเวลานี้เองระยะเวลาอาจนานถึงหลายปี และก็ยังย้อนกลับมาที่ความต้องการด้านข้อมูลอยู่ดี

อย่างไรก็ตามแม้ Robotic Foundation Model จะเป็นแนวคิดที่ยอดเยี่ยม ทั้งนี้โดยส่วนใหญ่แล้วแทบทั้งหมดคือการพัฒนา AI ไม่ใช่ฮาร์ดแวร์ ดังนั้นสุดท้ายแล้วลูกค้าก็คือกลุ่มผู้พัฒนาหุ่นยนต์นั่นเอง ดังนั้นการลงทุนของบริษัทใหญ่กับ Robotic Foundation Model จะเกิดขึ้นอย่างมหาศาลก็ต่อเมื่อมีจำนวนหุ่นยนต์ในท้องตลาดจำนวนมากด้วย ซึ่งปัจจุบันตัวหุ่นยนต์ส่วนใหญ่ยังเป็นการทำงานแบบเฉพาะทาง แต่ในอนาคตเราอาจได้เห็นหุ่นยนต์ที่ทำงานทั่วไปได้และพบเห็นได้มากขึ้นในการใช้ชีวิต

ความหวังของตลาด Robotic Foundation Model ยังไม่เป็นรูปเป็นร่างที่ชัดเจน แต่ก็มีแนวคิดใหม่ๆที่กำลังเร่งให้วงจรการพัฒนาหุ่นยนต์ต่างออกไปจากที่เคย เช่น transformer architecture ที่อาจทำให้การจำลองเรียนรู้หลายร้อยครั้งลดลงเหลือเพียงหลักสิบครั้งแต่ได้ผลลัพธ์เหมือนกัน ตลอดจนไอเดียของ Diffusion models หรือการเรียนรู้ด้วยตัวเองของหุ่นยนต์ ดังนั้นก็เป็นเรื่องยากที่จะคาดการณ์อนาคตของการกำเนิดขึ้นจริงของเทคโนโลยีนี้ อาจจะใช้เวลาถึงสิบปีหรือเป็นไปได้ในไม่กี่ปีข้างหน้า เพราะเราจะเห็นได้ว่ามีนวัตกรรมใหม่เกิดขึ้นได้เสมอ

ที่มา : https://www.redhat.com/en/topics/ai/what-are-foundation-models และ https://en.wikipedia.org/wiki/Foundation_model และ https://blogs.nvidia.com/blog/what-are-foundation-models/ และ https://medium.com/@bp_64302/this-business-of-robotics-foundation-models-cb4bdede1444 และ https://www.interconnects.ai/p/robotic-foundation-models

About nattakon

จบการศึกษา ปริญญาตรีและโท สาขาวิศวกรรมคอมพิวเตอร์ KMITL เคยทำงานด้าน Engineer/Presale ดูแลผลิตภัณฑ์ด้าน Network Security และ Public Cloud ในประเทศ ปัจจุบันเป็นนักเขียน Full-time ที่ TechTalkThai

Check Also

Salesforce เข้าซื้อกิจการ Fin มูลค่าราว 3,600 ล้านดอลลาร์ เสริมแกร่ง AI Agent งานบริการลูกค้า

Salesforce ประกาศลงนามข้อตกลงขั้นสุดท้ายเข้าซื้อกิจการ Fin ผู้ให้บริการแพลตฟอร์ม customer agent ในมูลค่าราว 3,600 ล้านดอลลาร์สหรัฐ เพื่อนำเทคโนโลยี AI Agent สำหรับงานบริการลูกค้ามาเสริมความสามารถให้กับ Agentforce

ETDA เร่งวางรากฐาน “ETR” ปลดล็อกการค้าไทยสู่ยุค Digital Trade ยกระดับเอกสารสิทธิจากกระดาษสู่ดิจิทัล [PR]

เมื่อเร็ว ๆ นี้ สำนักงานพัฒนาธุรกรรมทางอิเล็กทรอนิกส์ (สพธอ.) หรือ ETDA ร่วมกับ กรมเจ้าท่า, สมาคมเจ้าของและตัวแทนเรือกรุงเทพฯ, สมาคมธนาคารไทย, มหาวิทยาลัยหอการค้าไทย จัดงานเสวนา “ETR พลิกเกมการค้าไทย …