Alibaba เปิดตัวโมเดล AI Qwen2-VL พร้อมความสามารถวิเคราะห์วิดีโอขั้นสูง

Alibaba Cloud ประกาศเปิดตัว Qwen2-VL โมเดล AI รุ่นใหม่ที่มีความสามารถในการวิเคราะห์วิดีโอและการสนทนาหลายภาษา พร้อมรองรับการทำงานกับวิดีโอความยาวมากกว่า 20 นาที

Qwen2-VL เป็นโมเดล AI ที่ Alibaba Cloud พัฒนาต่อยอดจาก Qwen-VL โดยใช้เวลาพัฒนานานกว่า 1 ปี โมเดลนี้มีความสามารถในการวิเคราะห์และทำความเข้าใจเนื้อหาวิดีโอ สรุปเนื้อหา ตอบคำถามเกี่ยวกับวิดีโอ และสนทนาแบบต่อเนื่องได้แบบ Realtime นอกจากนี้ยังสามารถทำงานร่วมกับเครื่องมือภายนอกเพื่อดึงข้อมูลต่างๆ เช่น สถานะเที่ยวบิน พยากรณ์อากาศ และติดตามพัสดุได้

ในด้านเทคนิค Qwen2-VL ใช้โมเดล Vision Transformer (ViT) ที่มีพารามิเตอร์ประมาณ 600 ล้านตัว เพื่อจัดการกับข้อมูลภาพและวิดีโอพร้อมกัน และมีการเพิ่มความสามารถ Native Dynamic Resolution และระบบ Multimodal Rotary Position Embedding (M-ROPE) เพื่อรองรับการทำงานกับข้อมูลหลากหลายรูปแบบ อย่างไรก็ตาม โมเดลนี้ยังมีข้อจำกัดบางประการ เช่น ไม่สามารถดึงข้อมูลเสียงจากไฟล์วิดีโอได้ และข้อมูลที่ใช้ฝึกฝนอัปเดตถึงเดือนมิถุนายน 2023 เท่านั้น

ปัจจุบัน Alibaba ได้เปิดให้ใช้งาน Qwen2-VL แบบโอเพนซอร์สภายใต้ใบอนุญาต Apache 2.0 โดยมีให้เลือก 2 ขนาดคือ Qwen2-VL-2B และ Qwen2-VL-7B พร้อมเดโมบน Hugging Face สำหรับรุ่น 7 พันล้านพารามิเตอร์ บริษัทระบุว่าประสิทธิภาพของโมเดลนี้อยู่ในระดับแนวหน้าในหลายเกณฑ์ และความสามารถบางส่วนยังเหนือกว่าโมเดลแบบปิดอย่าง GPT-4 ของ OpenAI และ Claude 3.5-Sonnet ของ Anthropic อีกด้วย

ที่มา: https://siliconangle.com/2024/08/30/alibaba-announces-qwen2-vl-ai-model-advanced-video-analysis-reasoning-capabilities/

About เด็กฝึกงาน TechTalkThai หมายเลข 1

นักเขียนผู้มีความสนใจใน Enterprise IT ด้วยประสบการณ์กว่า 10 ปีในไทย ปัจจุบันใช้ชีวิตอยู่ที่สหรัฐอเมริกา แต่ยังคงมุ่งมั่นในการแบ่งปันความรู้และประสบการณ์ด้านเทคโนโลยีให้กับทุกคน

Check Also

Sonar เข้าซื้อกิจการ Gitar สตาร์ตอัป AI Code Review ยกระดับระบบตรวจสอบโค้ดด้วย Agentic Reasoning

Sonar ผู้ให้บริการแพลตฟอร์มตรวจสอบคุณภาพและความมั่นคงปลอดภัยของโค้ด ประกาศเข้าซื้อกิจการ Gitar สตาร์ตอัปผู้เชี่ยวชาญด้านระบบ AI-native Code Review การเข้าซื้อกิจการครั้งนี้มีเป้าหมายเพื่อผสานความสามารถด้านการคิดวิเคราะห์ของ Gitar เข้ากับเอนจินตรวจสอบโค้ดของ Sonar เพื่อสร้างความมั่นคงปลอดภัยที่รัดกุมยิ่งขึ้นสำหรับทีม DevOps ในยุคที่ …

Huawei เปิดตัวสถาปัตยกรรมชิปใหม่ แก้ปัญหาคว่ำบาตรและข้อจำกัด Moore’s Law

Huawei Technologies ยักษ์ใหญ่ด้านอิเล็กทรอนิกส์จากจีนได้เปิดตัวเฟรมเวิร์กการออกแบบชิปใหม่ ซึ่งบริษัทระบุว่าจะช่วยลดช่องว่างในอุตสาหกรรมเซมิคอนดักเตอร์กับผู้นำระดับโลกอย่าง TSMC และ Nvidia ได้