Alibaba Cloud ยักษ์ใหญ่ผู้ให้บริการ Cloud สัญชาติจีน ล่าสุดได้ประกาศเปิดตัว Qwen2-VL โมเดลภาพและภาษาล่าสุดที่มีการปรับปรุงเรื่องความเข้าใจในภาพและวีดีโอ ที่สามารถประมวลผลภาพและข้อความได้ในหลากหลายภาษา ที่สำคัญคือสามารถวิเคราะห์วีดีโอได้ยาวมากกว่า 20 นาทีด้วย
![](https://www.techtalkthai.com/wp-content/uploads/2024/08/alibaba-cloud-qwen2-vl-640x335.jpg)
โดย Alibaba Cloud ได้เปิดตัว Qwen2-VL โมเดล Qwen เวอร์ชันล่าสุดที่จะมาแข่งขันกับฝั่งตะวันตก ไม่ว่าจะเป็น Llama 3.1 ของ Meta, GPT-4o ของ OpenAI หรือ Claude 3 Haiku ของ Anthropic ซึ่ง Alibaba Cloud เผยว่าประสิทธิภาพจากการ Benchmark นั้นไม่แพ้กับโมเดลชั้นนำเหล่านั้นเลย
แน่นอนว่า Qwen2-VL นั้นสามารถสรุปเนื้อหาในวีดีโอได้ พร้อมกับสามารถตอบคำถาที่เกี่ยวข้อง และสามารถสนทนาได้อย่างต่อเนื่อง ซึ่งสามารถนำไปต่อยอดทำแชทบอทได้อย่างแน่นอน ซึ่งจุดที่น่าสนใจคือ Qwen2-VL นี้สามารถเข้าใจและวิเคราะห์วีดีโอได้นานมากกว่า 20 นาที ที่จะสามารถสรุปและตอบคำถามได้
สำหรับผู้ที่สนใจ Qwen2-VL ทาง Alibaba Cloud มีให้ใช้งาน 3 ขนาด คือ 72b, 7b และ 2b โดยสามารถเข้าไปทดลองและดูรายละเอียดเพิ่มเติมได้ที่ Hugging Face