Microsoft มี AI รุ่นใหม่แล้ว ชื่อ “Kosmos-1”

Kosmos-1 ของ Microsoft เป็นการปูทางไปสู่ขั้นตอนต่อไปนอกเหนือจากการโต้ตอบด้วยข้อความของ ChatGPT
Image Credit : gigazine.net
Microsoft ได้เปิดตัว Kosmos-1 ซึ่งอธิบายว่าเป็นโมเดลภาษาขนาดใหญ่หลายรูปแบบ (MLLM) ที่ไม่เพียงตอบสนองต่อคำสั่งภาษาเท่านั้น แต่ยังแสดงสัญลักษณ์ด้วยภาพ ซึ่งสามารถใช้กับงานต่างๆ มากมาย รวมทั้งคำบรรยายภาพ การตอบคำถามด้วยภาพ และอื่นๆ อีกมากมาย
 
ChatGPT ของ OpenAI ช่วยทำให้แนวคิดของ LLM เป็นที่นิยม เช่น โมเดล GPT (Generative Pre-trained Transformer) และความเป็นไปได้ในการแปลงข้อความแจ้งหรืออินพุตเป็นเอาต์พุต ซึ่งนักวิจัยด้าน AI ของ Microsoft แย้งในเอกสารที่ชื่อว่า “Language Is Not All You Need” ภาษาไม่ใช่ทั้งหมดที่คุณต้องการ
 
การปลดล็อกการป้อนข้อมูลหลายรูปแบบจะสามารถช่วยขยายขอบเขตการใช้งานของโมเดลภาษาไปสู่ส่วนที่มีมูลค่าสูงมากขึ้น เช่น multimodal machine learning, document intelligence และ robotics” โดย Microsoft ได้กล่าวว่า Kosmos-1 MLLM สามารถรับรู้รูปแบบทั่วไป การทำตามคำสั่ง (การเรียนรู้แบบ Zero-shot) และการเรียนรู้ในบริบท (การเรียนรู้แบบไม่กี่ภาพ) เพื่อเป้าหมายในการการจัดแนวการรับรู้ให้สอดคล้องกับ LLM สำหรับขีดความสามารถด้านการมองเห็นและสามารถพูดคุยได้
 
การสาธิตเอาต์พุตของ Kosmos-1 รวมถึงภาพของลูกแมวกับคนถือกระดาษที่มีรอยยิ้มที่มุมปาก
  • คำสั่งคือ: “อธิบายว่าทำไมรูปนี้ถึงตลก”
  • คำตอบของ Kosmos-1 คือ “แมวสวมหน้ากากที่ทำให้แมวยิ้มได้”
นักวิจัยยังได้ทดสอบว่า Kosmos-1 ดำเนินการอย่างไรในการทดสอบ Raven IQ แบบ Zero-shot โดยผลการวิจัยพบ “มีช่องว่างด้านประสิทธิภาพค่อนข้างมากระหว่างโมเดลปัจจุบันกับระดับเฉลี่ยของ IQ ระดับผู้ใหญ่” ซึ่งพบว่าความแม่นยำของมันแสดงให้เห็นศักยภาพสำหรับ MLLM ในการรับรู้รูปแบบแนวคิดเชิงนามธรรมในบริบทอวัจนภาษา (เป็นการสื่อสารโดยไม่ใช้ถ้อยคำ ทั้งที่เป็นภาษาพูดและภาษาเขียน เป็นภาษาที่มนุษย์ใช้สื่อสารกัน โดยใช้อากัปกิริยา ท่าทาง น้ำ เสียง สายตาหรือสีหน้า) โดยปรับการรับรู้ให้สอดคล้องกับโมเดลภาษาให้มากที่สุด
 
จากตัวอย่างสาธิตแสดงให้เห็นถึงศักยภาพของ MLLM เช่น Kosmos-1 ในกรณีการทำให้งานเป็นอัตโนมัติในหลายๆ สถานการณ์ เช่น การบอกผู้ใช้ Windows 10 ถึงวิธีการรีสตาร์ทคอมพิวเตอร์ (หรืองานอื่นๆ ด้วยภาพ) ไปจนถึงการอ่านหน้าเว็บเพื่อเริ่มต้นการค้นหาเว็บ การตีความข้อมูลด้านสุขภาพจากอุปกรณ์ การใส่คำอธิบายรูปภาพ และอื่นๆ อย่างไรก็ตาม
 
การวิจัยเกี่ยวกับ “การตอบคำถามหน้าเว็บ” เป็นเรื่องที่น่าสนใจเนื่องจากแผนการของ Microsoft ในการใช้โมเดลภาษาที่ใช้ Transformer เพื่อทำให้ Bing เป็นคู่แข่งกับการค้นหาของ Google ได้ดีขึ้น
 
อย่างไรก็ตาม โมเดลนี้ยังไม่มีความสามารถในการวิเคราะห์ข้อมูลจากวิดีโอ แต่ก็น่าสนใจว่านวัตกรรม AI จะก้าวมาถึง ณ จุดนี้ในปี พ.ศ. อะไร
 

About Pawarit Sornin

- จบการศึกษา ปริญญาตรี สาขาวิทยาการคอมพิวเตอร์ มหาวิทยาลัยสวนดุสิต - เคยทำงานด้าน Business Development / Project Manager / Product Sales ดูแลผลิตภัณฑ์ด้าน Wireless Networking และ Mobility Enterprise ในประเทศ - ปัจจุบันเป็นนักเขียน Full-time ที่ TechTalkThai

Check Also

Sonar เข้าซื้อกิจการ Gitar สตาร์ตอัป AI Code Review ยกระดับระบบตรวจสอบโค้ดด้วย Agentic Reasoning

Sonar ผู้ให้บริการแพลตฟอร์มตรวจสอบคุณภาพและความมั่นคงปลอดภัยของโค้ด ประกาศเข้าซื้อกิจการ Gitar สตาร์ตอัปผู้เชี่ยวชาญด้านระบบ AI-native Code Review การเข้าซื้อกิจการครั้งนี้มีเป้าหมายเพื่อผสานความสามารถด้านการคิดวิเคราะห์ของ Gitar เข้ากับเอนจินตรวจสอบโค้ดของ Sonar เพื่อสร้างความมั่นคงปลอดภัยที่รัดกุมยิ่งขึ้นสำหรับทีม DevOps ในยุคที่ …

Huawei เปิดตัวสถาปัตยกรรมชิปใหม่ แก้ปัญหาคว่ำบาตรและข้อจำกัด Moore’s Law

Huawei Technologies ยักษ์ใหญ่ด้านอิเล็กทรอนิกส์จากจีนได้เปิดตัวเฟรมเวิร์กการออกแบบชิปใหม่ ซึ่งบริษัทระบุว่าจะช่วยลดช่องว่างในอุตสาหกรรมเซมิคอนดักเตอร์กับผู้นำระดับโลกอย่าง TSMC และ Nvidia ได้