CDIC 2023

Microsoft มี AI รุ่นใหม่แล้ว ชื่อ “Kosmos-1”

Kosmos-1 ของ Microsoft เป็นการปูทางไปสู่ขั้นตอนต่อไปนอกเหนือจากการโต้ตอบด้วยข้อความของ ChatGPT
Image Credit : gigazine.net
Microsoft ได้เปิดตัว Kosmos-1 ซึ่งอธิบายว่าเป็นโมเดลภาษาขนาดใหญ่หลายรูปแบบ (MLLM) ที่ไม่เพียงตอบสนองต่อคำสั่งภาษาเท่านั้น แต่ยังแสดงสัญลักษณ์ด้วยภาพ ซึ่งสามารถใช้กับงานต่างๆ มากมาย รวมทั้งคำบรรยายภาพ การตอบคำถามด้วยภาพ และอื่นๆ อีกมากมาย
 
ChatGPT ของ OpenAI ช่วยทำให้แนวคิดของ LLM เป็นที่นิยม เช่น โมเดล GPT (Generative Pre-trained Transformer) และความเป็นไปได้ในการแปลงข้อความแจ้งหรืออินพุตเป็นเอาต์พุต ซึ่งนักวิจัยด้าน AI ของ Microsoft แย้งในเอกสารที่ชื่อว่า “Language Is Not All You Need” ภาษาไม่ใช่ทั้งหมดที่คุณต้องการ
 
การปลดล็อกการป้อนข้อมูลหลายรูปแบบจะสามารถช่วยขยายขอบเขตการใช้งานของโมเดลภาษาไปสู่ส่วนที่มีมูลค่าสูงมากขึ้น เช่น multimodal machine learning, document intelligence และ robotics” โดย Microsoft ได้กล่าวว่า Kosmos-1 MLLM สามารถรับรู้รูปแบบทั่วไป การทำตามคำสั่ง (การเรียนรู้แบบ Zero-shot) และการเรียนรู้ในบริบท (การเรียนรู้แบบไม่กี่ภาพ) เพื่อเป้าหมายในการการจัดแนวการรับรู้ให้สอดคล้องกับ LLM สำหรับขีดความสามารถด้านการมองเห็นและสามารถพูดคุยได้
 
การสาธิตเอาต์พุตของ Kosmos-1 รวมถึงภาพของลูกแมวกับคนถือกระดาษที่มีรอยยิ้มที่มุมปาก
  • คำสั่งคือ: “อธิบายว่าทำไมรูปนี้ถึงตลก”
  • คำตอบของ Kosmos-1 คือ “แมวสวมหน้ากากที่ทำให้แมวยิ้มได้”
นักวิจัยยังได้ทดสอบว่า Kosmos-1 ดำเนินการอย่างไรในการทดสอบ Raven IQ แบบ Zero-shot โดยผลการวิจัยพบ “มีช่องว่างด้านประสิทธิภาพค่อนข้างมากระหว่างโมเดลปัจจุบันกับระดับเฉลี่ยของ IQ ระดับผู้ใหญ่” ซึ่งพบว่าความแม่นยำของมันแสดงให้เห็นศักยภาพสำหรับ MLLM ในการรับรู้รูปแบบแนวคิดเชิงนามธรรมในบริบทอวัจนภาษา (เป็นการสื่อสารโดยไม่ใช้ถ้อยคำ ทั้งที่เป็นภาษาพูดและภาษาเขียน เป็นภาษาที่มนุษย์ใช้สื่อสารกัน โดยใช้อากัปกิริยา ท่าทาง น้ำ เสียง สายตาหรือสีหน้า) โดยปรับการรับรู้ให้สอดคล้องกับโมเดลภาษาให้มากที่สุด
 
จากตัวอย่างสาธิตแสดงให้เห็นถึงศักยภาพของ MLLM เช่น Kosmos-1 ในกรณีการทำให้งานเป็นอัตโนมัติในหลายๆ สถานการณ์ เช่น การบอกผู้ใช้ Windows 10 ถึงวิธีการรีสตาร์ทคอมพิวเตอร์ (หรืองานอื่นๆ ด้วยภาพ) ไปจนถึงการอ่านหน้าเว็บเพื่อเริ่มต้นการค้นหาเว็บ การตีความข้อมูลด้านสุขภาพจากอุปกรณ์ การใส่คำอธิบายรูปภาพ และอื่นๆ อย่างไรก็ตาม
 
การวิจัยเกี่ยวกับ “การตอบคำถามหน้าเว็บ” เป็นเรื่องที่น่าสนใจเนื่องจากแผนการของ Microsoft ในการใช้โมเดลภาษาที่ใช้ Transformer เพื่อทำให้ Bing เป็นคู่แข่งกับการค้นหาของ Google ได้ดีขึ้น
 
อย่างไรก็ตาม โมเดลนี้ยังไม่มีความสามารถในการวิเคราะห์ข้อมูลจากวิดีโอ แต่ก็น่าสนใจว่านวัตกรรม AI จะก้าวมาถึง ณ จุดนี้ในปี พ.ศ. อะไร
 

About Pawarit Sornin

- จบการศึกษา ปริญญาตรี สาขาวิทยาการคอมพิวเตอร์ มหาวิทยาลัยสวนดุสิต - เคยทำงานด้าน Business Development / Project Manager / Product Sales ดูแลผลิตภัณฑ์ด้าน Wireless Networking และ Mobility Enterprise ในประเทศ - ปัจจุบันเป็นนักเขียน Full-time ที่ TechTalkThai

Check Also

Sirisoft ผนึกกำลัง Red Hat และ VST ECS นำเสนอ Red Hat OpenShift Platform Plus [Guest Post]

Sirisoft (สิริซอฟต์) ผู้ให้บริการด้านการให้คำปรึกษาและพัฒนาเทคโนโลยีสารสนเทศชั้นนำของไทย ผนึกกำลัง Red Hat (เร้ดแฮท (ประเทศไทย) ผู้ให้บริการด้านโซลูชันโอเพ่นซอร์สระดับแนวหน้าของโลก และ VST ECS (วีเอสที อีซีเอส (ประเทศไทย) …

Intel ออกบริการ Trust-as-a-Service ภายใต้โปรเจ็ค ‘Amber’

Project Amber ถูกวางตัวให้เป็นบริการ SaaS ที่จะช่วยเรื่องของการตรวจสอบว่าสภาพแวดล้อมนั้นๆมีความถูกต้องน่าเชื่อถือหรือไม่ โดยเป็นบริการแรกในส่วนของ Trust Authority ที่ถูกเปิดตัวออกมา