Microsoft มี AI รุ่นใหม่แล้ว ชื่อ “Kosmos-1”

March 2, 2023 AI, Business Software, Microsoft, Products, Robot

Kosmos-1 ของ Microsoft เป็นการปูทางไปสู่ขั้นตอนต่อไปนอกเหนือจากการโต้ตอบด้วยข้อความของ ChatGPT

Microsoft ได้เปิดตัว Kosmos-1 ซึ่งอธิบายว่าเป็นโมเดลภาษาขนาดใหญ่หลายรูปแบบ (MLLM) ที่ไม่เพียงตอบสนองต่อคำสั่งภาษาเท่านั้น แต่ยังแสดงสัญลักษณ์ด้วยภาพ ซึ่งสามารถใช้กับงานต่างๆ มากมาย รวมทั้งคำบรรยายภาพ การตอบคำถามด้วยภาพ และอื่นๆ อีกมากมาย

ChatGPT ของ OpenAI ช่วยทำให้แนวคิดของ LLM เป็นที่นิยม เช่น โมเดล GPT (Generative Pre-trained Transformer) และความเป็นไปได้ในการแปลงข้อความแจ้งหรืออินพุตเป็นเอาต์พุต ซึ่งนักวิจัยด้าน AI ของ Microsoft แย้งในเอกสารที่ชื่อว่า “Language Is Not All You Need” ภาษาไม่ใช่ทั้งหมดที่คุณต้องการ

การปลดล็อกการป้อนข้อมูลหลายรูปแบบจะสามารถช่วยขยายขอบเขตการใช้งานของโมเดลภาษาไปสู่ส่วนที่มีมูลค่าสูงมากขึ้น เช่น multimodal machine learning, document intelligence และ robotics” โดย Microsoft ได้กล่าวว่า Kosmos-1 MLLM สามารถรับรู้รูปแบบทั่วไป การทำตามคำสั่ง (การเรียนรู้แบบ Zero-shot) และการเรียนรู้ในบริบท (การเรียนรู้แบบไม่กี่ภาพ) เพื่อเป้าหมายในการการจัดแนวการรับรู้ให้สอดคล้องกับ LLM สำหรับขีดความสามารถด้านการมองเห็นและสามารถพูดคุยได้

การสาธิตเอาต์พุตของ Kosmos-1 รวมถึงภาพของลูกแมวกับคนถือกระดาษที่มีรอยยิ้มที่มุมปาก

คำสั่งคือ: “อธิบายว่าทำไมรูปนี้ถึงตลก”
คำตอบของ Kosmos-1 คือ “แมวสวมหน้ากากที่ทำให้แมวยิ้มได้”

นักวิจัยยังได้ทดสอบว่า Kosmos-1 ดำเนินการอย่างไรในการทดสอบ Raven IQ แบบ Zero-shot โดยผลการวิจัยพบ “มีช่องว่างด้านประสิทธิภาพค่อนข้างมากระหว่างโมเดลปัจจุบันกับระดับเฉลี่ยของ IQ ระดับผู้ใหญ่” ซึ่งพบว่าความแม่นยำของมันแสดงให้เห็นศักยภาพสำหรับ MLLM ในการรับรู้รูปแบบแนวคิดเชิงนามธรรมในบริบทอวัจนภาษา (เป็นการสื่อสารโดยไม่ใช้ถ้อยคำ ทั้งที่เป็นภาษาพูดและภาษาเขียน เป็นภาษาที่มนุษย์ใช้สื่อสารกัน โดยใช้อากัปกิริยา ท่าทาง น้ำ เสียง สายตาหรือสีหน้า) โดยปรับการรับรู้ให้สอดคล้องกับโมเดลภาษาให้มากที่สุด

จากตัวอย่างสาธิตแสดงให้เห็นถึงศักยภาพของ MLLM เช่น Kosmos-1 ในกรณีการทำให้งานเป็นอัตโนมัติในหลายๆ สถานการณ์ เช่น การบอกผู้ใช้ Windows 10 ถึงวิธีการรีสตาร์ทคอมพิวเตอร์ (หรืองานอื่นๆ ด้วยภาพ) ไปจนถึงการอ่านหน้าเว็บเพื่อเริ่มต้นการค้นหาเว็บ การตีความข้อมูลด้านสุขภาพจากอุปกรณ์ การใส่คำอธิบายรูปภาพ และอื่นๆ อย่างไรก็ตาม

การวิจัยเกี่ยวกับ “การตอบคำถามหน้าเว็บ” เป็นเรื่องที่น่าสนใจเนื่องจากแผนการของ Microsoft ในการใช้โมเดลภาษาที่ใช้ Transformer เพื่อทำให้ Bing เป็นคู่แข่งกับการค้นหาของ Google ได้ดีขึ้น

อย่างไรก็ตาม โมเดลนี้ยังไม่มีความสามารถในการวิเคราะห์ข้อมูลจากวิดีโอ แต่ก็น่าสนใจว่านวัตกรรม AI จะก้าวมาถึง ณ จุดนี้ในปี พ.ศ. อะไร

ที่มา : https://www.zdnet.com/article/now-microsoft-has-a-new-ai-model-kosmos-1/

Dell Pro Precision x Dell Pro AI Studio: จุดเริ่มต้น AI ที่ใช่สำหรับทุกองค์กร [Guest Post]

ในยุคที่ AI กลายเป็นหัวใจของการขับเคลื่อนธุรกิจ องค์กรทุกขนาดต่างมองหา “จุดเริ่มต้น” ที่แข็งแรงพอจะรองรับงานตั้งแต่การออกแบบ วิเคราะห์ข้อมูล ไปจนถึงการพัฒนาโมเดล AI ของตัวเอง Dell Pro Precision คือคำตอบ workstations …

NCSA ร่วมกับ Veeam ขอเชิญทุกท่านเข้าร่วมงานสัมมนาออนไลน์ในหัวข้อ “Data Trust ในยุค AI” [4 ส.ค. 2569 — 14.00น.]

NCSA ร่วมกับ Veeam ขอเชิญทุกท่านเข้าร่วมงานสัมมนาออนไลน์ในหัวข้อ “Data Trust ในยุค AI” เพื่อเรียนรู้กับการป้องกันไม่ให้ข้อมูลสำคัญขององค์กรหรือหน่วยงาน รั่วไหลไปกับการใช้งาน AI Agent ที่มีความรวดเร็วและซับซ้อนขึ้นเรื่อยๆ ด้วยมาตรการต่างๆ เช่น …

TechTalkThai ศูนย์รวมข่าว Enterprise IT ออนไลน์แห่งแรกในประเทศไทย

Microsoft มี AI รุ่นใหม่แล้ว ชื่อ “Kosmos-1”

About Pawarit Sornin

Related Articles

Check Also

Dell Pro Precision x Dell Pro AI Studio: จุดเริ่มต้น AI ที่ใช่สำหรับทุกองค์กร [Guest Post]

NCSA ร่วมกับ Veeam ขอเชิญทุกท่านเข้าร่วมงานสัมมนาออนไลน์ในหัวข้อ “Data Trust ในยุค AI” [4 ส.ค. 2569 — 14.00น.]

Microsoft มี AI รุ่นใหม่แล้ว ชื่อ “Kosmos-1”

Share this:

About Pawarit Sornin

Related Articles

Check Also