IBM Flashsystem

Alibaba Cloud เปิดตัว Qwen2.5-Omni-7B โมเดล AI แบบ Multimodal รองรับการรับข้อมูลหลายรูปแบบ

Alibaba Cloud ประกาศเปิดตัว Qwen2.5-Omni-7B โมเดล AI แบบ end-to-end multimodal ที่สามารถประมวลผลข้อมูลได้หลากหลายรูปแบบทั้งข้อความ, รูปภาพ, เสียง และวิดีโอ พร้อมตอบสนองด้วยข้อความและเสียงแบบ real-time

Alibaba Cloud ได้เปิดตัว Qwen2.5-Omni-7B โมเดล AI แบบ multimodal รุ่นล่าสุดในตระกูล Qwen ที่ออกแบบมาเป็นพิเศษเพื่อรองรับการรับรู้ข้อมูลหลากหลายรูปแบบ ไม่ว่าจะเป็นข้อความ, รูปภาพ, เสียง และวิดีโอ โดยให้ผลลัพธ์เป็นข้อความและเสียงพูดที่เป็นธรรมชาติแบบ real-time แม้จะมีขนาดเพียง 7B พารามิเตอร์ แต่โมเดลนี้ยังคงให้ประสิทธิภาพที่ไม่ลดทอนและมีความสามารถด้าน multimodal ที่ทรงพลัง ทำให้เหมาะสำหรับเป็นพื้นฐานในการพัฒนา AI agents ที่คล่องตัวและคุ้มค่า โดยเฉพาะอย่างยิ่งสำหรับแอปพลิเคชันเสียงอัจฉริยะ มีตัวอย่างการใช้งาน เช่น ช่วยผู้พิการทางสายตาในการนำทางด้วยการอธิบายสภาพแวดล้อมผ่านเสียงแบบ real-time หรือให้คำแนะนำในการทำอาหารทีละขั้นตอนโดยวิเคราะห์จากวิดีโอส่วนประกอบอาหาร

ประสิทธิภาพอันโดดเด่นของ Qwen2.5-Omni-7B มาจากสถาปัตยกรรมหลายตัวรวมกัน ได้แก่ Thinker-Talker Architecture ที่แยกการสร้างข้อความและการสังเคราะห์เสียงออกจากกัน เพื่อลดการรบกวนระหว่าง modality ต่างๆ ให้ผลลัพธ์คุณภาพสูง, TMRoPE (Time-aligned Multimodal RoPE) เทคนิคการฝังตำแหน่งที่ช่วย synchronize วิดีโอกับเสียงได้ดีขึ้น และ Block-wise Streaming Processing ที่ช่วยให้เกิดการตอบสนองด้านเสียง latency ต่ำเพื่อการโต้ตอบด้วยเสียงที่ราบรื่น นอกจากนี้โมเดลยังผ่านการฝึกสอนด้วยชุดข้อมูลที่หลากหลาย ทั้งข้อมูลรูปภาพ-ข้อความ, วิดีโอ-ข้อความ, วิดีโอ-เสียง, เสียง-ข้อความ และข้อความล้วน ทำให้มีประสิทธิภาพสูงในหลากหลายงาน

ปัจจุบันโมเดลนี้ได้เปิดให้ใช้งานแบบโอเพนซอร์สบน Hugging Face และ GitHub พร้อมทั้งสามารถเข้าถึงได้ผ่าน Qwen Chat และชุมชนโอเพนซอร์ส ModelScope ของ Alibaba Cloud

ที่มา: https://www.alizila.com/alibaba-cloud-releases-qwen2-5-omni-7b-an-end-to-end-multimodal-ai-model/

About เด็กฝึกงาน TechTalkThai หมายเลข 1

นักเขียนผู้มีความสนใจใน Enterprise IT ด้วยประสบการณ์กว่า 10 ปีในไทย ปัจจุบันใช้ชีวิตอยู่ที่ Cupertino, CA แต่ยังคงมุ่งมั่นในการแบ่งปันความรู้และประสบการณ์ด้านเทคโนโลยีให้กับทุกคน

Check Also

Google Workspace เตรียมเพิ่มฟีเจอร์ AI มัลติโมดอลใหม่ ช่วยทำงานให้โดยอัตโนมัติ

Google กำลังเพิ่มฟีเจอร์ปัญญาประดิษฐ์ใหม่ให้กับ Google Workspace เพื่อช่วยให้ผู้ใช้สามารถเขียนอีเมล แปลงสไลด์โชว์เป็นวิดีโอ และทำงานอื่น ๆ ได้ง่ายยิ่งขึ้น

Google เปิดตัว Google AI Ultra แพ็คเกจสมาชิก AI ระดับสูงสุดในราคา $249.99 ต่อเดือน

Google ประกาศเปิดตัว Google AI Ultra แพ็คเกจสมาชิกใหม่ล่าสุดที่มอบสิทธิการเข้าถึงโมเดล AI ที่ทรงพลังที่สุดและฟีเจอร์พรีเมียมในราคา $249.99 ต่อเดือน พร้อมโปรโมชั่นลด 50% สำหรับผู้ใช้งานใหม่ในช่วง 3 เดือนแรก