Tag Archives: Multimodal

Meta เปิดตัว Spirit LM โมเดล Open Source เชื่อมโยงเสียงและข้อความให้ไร้รอยต่อมากขึ้น

ดูเหมือนว่า Meta จะอยากเปิดตัวโมเดล AI ที่ล้อไปกับเทศกาลฮาโลวีนที่กำลังจะถึงในเร็ว ๆ นี้ โดยได้เปิดตัว Meta Spirit LM โมเดล Multimodal ใหม่ให้เป็น Open Source ที่สามารถใส่อารมณ์หรือโทนเสียง ทำให้เชื่อมโยงข้อความและเสียงที่เป็น Input และ Output ได้อย่างไร้รอยต่อมากยิ่งขึ้น 

Read More »

Google เปิดตัว Gemini 1.5 Flash-8B โมเดล AI ขนาดเล็กแบบ GA

Google ประกาศพร้อมให้บริการ Gemini 1.5 Flash-8B แบบ General Availability โมเดล AI ขนาดเล็กที่มีประสิทธิภาพสูง พร้อมเพิ่ม Rate limit 2 เท่า

Read More »

จับตา Liquid AI เปิดตัวโมเดล Multimodal AI ใหม่ ที่ไม่ได้อิงจาก Transformer

Generative AI ที่เกิดขึ้นมาก่อนหน้านี้และที่กำลังใช้งานกันอยู่ในปัจจุบัน ส่วนใหญ่นั้นจะเป็นการอิงโครงสร้างสถาปัตยกรรม Transformer ซึ่งอ้างอิงมาจากงานตีพิมพ์ Attention Is All You Need อันโด่งดัง หากแต่ล่าสุด Liquid AI ได้ออกมาเปิดตัวโมเดลใหม่ที่ไม่ได้อิง Transformer และอาจเป็นโมเดล Generative AI แห่งอนาคต

Read More »

Meta เปิดตัว Llama 3.2 เตรียมแข่ง OpenAI, Anthropic

จากงาน Meta Connect วันนี้ ทาง Meta ได้ปล่อยโมเดล Llama 3.2 ออกมาอย่างเป็นทางการ โดยถือว่าเป็น โมเดล Multimodal ที่เป็น Open Source ตัวแรกของบริษัทที่สามารถเข้าใจได้ทั้งภาพและข้อความที่มีความสามารถเทียบเคียงกับโมเดลของ Anthropic และ OpenAI แล้วด้วย

Read More »

OpenAI “GPT-4o” โมเดลเรือธงใหม่ เล่านิทานใส่อารมณ์ ร้องเพลง และสอนเลขได้

จากที่ Sam Altman ได้ปัดข่าวลือว่าจะ OpenAI จะเปิดตัว Search Engine แต่จะเป็นสิ่งที่เหมือนเป็นเวทมนตร์มาก ๆ ในค่ำคืนที่ผ่านมา บริษัทได้เปิดตัว “GPT-4o” โมเดลเรือธงใหม่ล่าสุดที่สามารถใส่อารมณ์ในการเล่านิทาน ร้องเพลง พร้อมกับสามารถสอนแก้ไขสมการคณิตศาสตร์ได้เหมือนคุยกับเพื่อนจริง ๆ ก็ว่าได้ บทความนี้ ทีมงานได้สรุปรายละเอียดเกี่ยวกับ GPT-4o ที่ OpenAI ได้เปิดตัวอย่างเป็นทางการเรียบร้อยมาให้แล้ว ว่าโมเดลนี้คืออะไร มีความขีดความสามารถอะไรบ้าง ที่บอกได้เลยว่า AI ที่เหมือนกับในภาพยนตร์หลาย ๆ เรื่อง อาจจะได้เห็นกันในช่วงชีวิตนี้ก็เป็นได้

Read More »