Tag Archives: Multimodal

Google เปิดตัว Gemini 2.5 Flash-Lite พร้อมปรับราคาโมเดลในซีรีส์ใหม่

Google เปิดตัว Gemini 2.5 Flash-Lite โมเดล LLM ระดับเริ่มต้นตัวใหม่ประมวลผลเร็วขึ้น ราคาถูกกว่า Pro ถึง 10 เท่า พร้อมใช้งาน mixture-of-experts เพิ่มประสิทธิภาพ

Read More »

Google Workspace เตรียมเพิ่มฟีเจอร์ AI มัลติโมดอลใหม่ ช่วยทำงานให้โดยอัตโนมัติ

Google กำลังเพิ่มฟีเจอร์ปัญญาประดิษฐ์ใหม่ให้กับ Google Workspace เพื่อช่วยให้ผู้ใช้สามารถเขียนอีเมล แปลงสไลด์โชว์เป็นวิดีโอ และทำงานอื่น ๆ ได้ง่ายยิ่งขึ้น

Read More »

Google เปิดตัว Gemini 2.5 Pro Preview พร้อมความสามารถด้านการเขียนโค้ดที่เหนือชั้น

Google ประกาศเปิดตัว Gemini 2.5 Pro Preview เวอร์ชันล่าสุดของโมเดล AI ชั้นนำของบริษัท ที่มาพร้อมความสามารถด้านการเขียนโค้ดที่พัฒนาขึ้นอย่างมีนัยสำคัญ โดยเปิดให้เข้าถึงในโหมด early access แล้ววันนี้ ก่อนงานประชุมนักพัฒนา Google I/O 2025 ที่จะมีขึ้นในอีกไม่กี่สัปดาห์ข้างหน้า

Read More »

Meta อัปเกรดเอไอสู่ Llama 4 ยกระดับความอัจฉริยะผ่าน Multimodal ประมวลผลได้หลากหลาย [PR]

Meta ประกาศเปิดตัว Llama 4 ปัญญาประดิษฐ์เวอร์ชันอัปเดตล่าสุดอย่างเป็นทางการ ซึ่งเป็นชุดโมเดลภาษาขนาดใหญ่ (LLMs) แบบโอเพนซอร์ส ที่จะช่วยยกระดับขีดความสามารถของ Meta AI ในประเทศไทยอย่างมีนัยสำคัญ และเป็นอีกก้าวหนึ่งในการพัฒนานวัตกรรมอย่างต่อเนื่องของ Meta เพื่อให้ผู้ใช้ทุกคน จากทุกที่ สามารถ เข้าถึง AI ระดับโลกได้

Read More »

Thinking Machines ของ Mira Murati กำลังระดมทุน 2 พันล้านดอลลาร์

มีรายงานว่า Thinking Machines Lab ซึ่งเป็นสตาร์ทอัพด้านปัญญาประดิษฐ์ที่นำโดย Mira Murati อดีตประธานเจ้าหน้าที่ฝ่ายเทคโนโลยีของ OpenAI กำลังระดมทุนรอบ seed มูลค่า 2 พันล้านดอลลาร์

Read More »

Google Search เพิ่มความสามารถค้นหาด้วยภาพใหม่ให้ AI Mode

Google กำลังอัปเดตฟีเจอร์ใหม่ให้ “AI Mode” ใน Google Search โดยเพิ่มความสามารถแบบมัลติโหมด ที่ช่วยให้ระบบสามารถ “มองเห็น” ภาพที่ผู้ใช้อัปโหลดเข้ามา เพื่อให้ตอบคำถามได้อย่างมีประสิทธิภาพมากยิ่งขึ้น

Read More »

Amazon Q Business พร้อมหนุนหา Insight จากข้อมูลเสียงและวีดีโอได้แล้ว

AWS ได้ประกาศเพิ่มเติมฟีเจอร์ใหม่ใน Amazon Q Business ที่พร้อมสนับสนุนการกลืนกิน (Ingestion) ข้อมูลที่เป็นเสียงและวีดีโอเข้าไปทำความเข้าใจได้แล้ว ซึ่ง จะช่วยทำให้ผู้ใช้งาน Amazon Q สามารถสืบค้นเนื้อหาในวีดีโอหรือเสียงได้ ถาม ตอบโดยอิงจากข้อมูลที่อยู่ในไฟล์ข้อมูลได้แล้ว

Read More »

Microsoft เปิดตัวโมเดล Phi-4 รุ่นใหม่ รองรับทั้ง Multimodal และรุ่นขนาดเล็กประสิทธิภาพสูง

Microsoft ประกาศเปิดตัวโมเดล AI ตระกูล Phi รุ่นใหม่ล่าสุด ได้แก่ Phi-4-multimodal และ Phi-4-mini ที่ให้ความสามารถด้าน AI ขั้นสูงในรูปแบบโมเดลขนาดเล็ก พร้อมให้บริการแล้วบน Azure AI Foundry, HuggingFace และ NVIDIA API Catalog

Read More »

IBM เปิดตัวโมเดล Granite 3.2 พร้อมความสามารถด้านการให้เหตุผลแบบเปิด-ปิดได้

IBM ประกาศเปิดตัวโมเดล Granite 3.2 ใหม่ มาพร้อมความสามารถด้านการให้เหตุผล, การประมวลผลภาพ, และการพยากรณ์ พร้อมเปิดให้ใช้งานแบบโอเพนซอร์สภายใต้ใบอนุญาต Apache 2.0 p

Read More »

Amazon Bedrock พร้อมสนับสนุนโมเดล Multimodal จาก Cohere ในหลาย Region

Amazon Bedrock บริการ Managed Service สำหรับโมเดล Foundation Model เพื่อต่อยอดการสร้างแอปพลิเคชัน Generative AI ได้อย่างรวดเร็ว สัปดาห์ที่แล้วได้ประกาศสนับสนุนโมเดลของ Cohere เพิ่มเติมอย่าง Embed 3 ที่เป็น Multimodal ให้ใช้งานได้แล้ว

Read More »

รู้จัก Nova – โมเดล Gen AI แบบ Multimodal ตระกูลใหม่จาก Amazon

Amazon Web Services (AWS) แผนกคลาวด์ของ Amazon.com ได้ประกาศเปิดตัวโมเดล Gen AI แบบ Multimodal ตระกูลใหม่ภายใต้ชื่อ Nova ในงาน AWS re:Invent

Read More »

Meta เปิดตัว Spirit LM โมเดล Open Source เชื่อมโยงเสียงและข้อความให้ไร้รอยต่อมากขึ้น

ดูเหมือนว่า Meta จะอยากเปิดตัวโมเดล AI ที่ล้อไปกับเทศกาลฮาโลวีนที่กำลังจะถึงในเร็ว ๆ นี้ โดยได้เปิดตัว Meta Spirit LM โมเดล Multimodal ใหม่ให้เป็น Open Source ที่สามารถใส่อารมณ์หรือโทนเสียง ทำให้เชื่อมโยงข้อความและเสียงที่เป็น Input และ Output ได้อย่างไร้รอยต่อมากยิ่งขึ้น 

Read More »

Google เปิดตัว Gemini 1.5 Flash-8B โมเดล AI ขนาดเล็กแบบ GA

Google ประกาศพร้อมให้บริการ Gemini 1.5 Flash-8B แบบ General Availability โมเดล AI ขนาดเล็กที่มีประสิทธิภาพสูง พร้อมเพิ่ม Rate limit 2 เท่า

Read More »

จับตา Liquid AI เปิดตัวโมเดล Multimodal AI ใหม่ ที่ไม่ได้อิงจาก Transformer

Generative AI ที่เกิดขึ้นมาก่อนหน้านี้และที่กำลังใช้งานกันอยู่ในปัจจุบัน ส่วนใหญ่นั้นจะเป็นการอิงโครงสร้างสถาปัตยกรรม Transformer ซึ่งอ้างอิงมาจากงานตีพิมพ์ Attention Is All You Need อันโด่งดัง หากแต่ล่าสุด Liquid AI ได้ออกมาเปิดตัวโมเดลใหม่ที่ไม่ได้อิง Transformer และอาจเป็นโมเดล Generative AI แห่งอนาคต

Read More »

Meta เปิดตัว Llama 3.2 เตรียมแข่ง OpenAI, Anthropic

จากงาน Meta Connect วันนี้ ทาง Meta ได้ปล่อยโมเดล Llama 3.2 ออกมาอย่างเป็นทางการ โดยถือว่าเป็น โมเดล Multimodal ที่เป็น Open Source ตัวแรกของบริษัทที่สามารถเข้าใจได้ทั้งภาพและข้อความที่มีความสามารถเทียบเคียงกับโมเดลของ Anthropic และ OpenAI แล้วด้วย

Read More »

OpenAI “GPT-4o” โมเดลเรือธงใหม่ เล่านิทานใส่อารมณ์ ร้องเพลง และสอนเลขได้

จากที่ Sam Altman ได้ปัดข่าวลือว่าจะ OpenAI จะเปิดตัว Search Engine แต่จะเป็นสิ่งที่เหมือนเป็นเวทมนตร์มาก ๆ ในค่ำคืนที่ผ่านมา บริษัทได้เปิดตัว “GPT-4o” โมเดลเรือธงใหม่ล่าสุดที่สามารถใส่อารมณ์ในการเล่านิทาน ร้องเพลง พร้อมกับสามารถสอนแก้ไขสมการคณิตศาสตร์ได้เหมือนคุยกับเพื่อนจริง ๆ ก็ว่าได้ บทความนี้ ทีมงานได้สรุปรายละเอียดเกี่ยวกับ GPT-4o ที่ OpenAI ได้เปิดตัวอย่างเป็นทางการเรียบร้อยมาให้แล้ว ว่าโมเดลนี้คืออะไร มีความขีดความสามารถอะไรบ้าง ที่บอกได้เลยว่า AI ที่เหมือนกับในภาพยนตร์หลาย ๆ เรื่อง อาจจะได้เห็นกันในช่วงชีวิตนี้ก็เป็นได้

Read More »