Alibaba Cloud เปิดตัว Qwen2.5-Omni-7B โมเดล AI แบบ Multimodal รองรับการรับข้อมูลหลายรูปแบบ

Alibaba Cloud ประกาศเปิดตัว Qwen2.5-Omni-7B โมเดล AI แบบ end-to-end multimodal ที่สามารถประมวลผลข้อมูลได้หลากหลายรูปแบบทั้งข้อความ, รูปภาพ, เสียง และวิดีโอ พร้อมตอบสนองด้วยข้อความและเสียงแบบ real-time

Alibaba Cloud ได้เปิดตัว Qwen2.5-Omni-7B โมเดล AI แบบ multimodal รุ่นล่าสุดในตระกูล Qwen ที่ออกแบบมาเป็นพิเศษเพื่อรองรับการรับรู้ข้อมูลหลากหลายรูปแบบ ไม่ว่าจะเป็นข้อความ, รูปภาพ, เสียง และวิดีโอ โดยให้ผลลัพธ์เป็นข้อความและเสียงพูดที่เป็นธรรมชาติแบบ real-time แม้จะมีขนาดเพียง 7B พารามิเตอร์ แต่โมเดลนี้ยังคงให้ประสิทธิภาพที่ไม่ลดทอนและมีความสามารถด้าน multimodal ที่ทรงพลัง ทำให้เหมาะสำหรับเป็นพื้นฐานในการพัฒนา AI agents ที่คล่องตัวและคุ้มค่า โดยเฉพาะอย่างยิ่งสำหรับแอปพลิเคชันเสียงอัจฉริยะ มีตัวอย่างการใช้งาน เช่น ช่วยผู้พิการทางสายตาในการนำทางด้วยการอธิบายสภาพแวดล้อมผ่านเสียงแบบ real-time หรือให้คำแนะนำในการทำอาหารทีละขั้นตอนโดยวิเคราะห์จากวิดีโอส่วนประกอบอาหาร

ประสิทธิภาพอันโดดเด่นของ Qwen2.5-Omni-7B มาจากสถาปัตยกรรมหลายตัวรวมกัน ได้แก่ Thinker-Talker Architecture ที่แยกการสร้างข้อความและการสังเคราะห์เสียงออกจากกัน เพื่อลดการรบกวนระหว่าง modality ต่างๆ ให้ผลลัพธ์คุณภาพสูง, TMRoPE (Time-aligned Multimodal RoPE) เทคนิคการฝังตำแหน่งที่ช่วย synchronize วิดีโอกับเสียงได้ดีขึ้น และ Block-wise Streaming Processing ที่ช่วยให้เกิดการตอบสนองด้านเสียง latency ต่ำเพื่อการโต้ตอบด้วยเสียงที่ราบรื่น นอกจากนี้โมเดลยังผ่านการฝึกสอนด้วยชุดข้อมูลที่หลากหลาย ทั้งข้อมูลรูปภาพ-ข้อความ, วิดีโอ-ข้อความ, วิดีโอ-เสียง, เสียง-ข้อความ และข้อความล้วน ทำให้มีประสิทธิภาพสูงในหลากหลายงาน

ปัจจุบันโมเดลนี้ได้เปิดให้ใช้งานแบบโอเพนซอร์สบน Hugging Face และ GitHub พร้อมทั้งสามารถเข้าถึงได้ผ่าน Qwen Chat และชุมชนโอเพนซอร์ส ModelScope ของ Alibaba Cloud

ที่มา: https://www.alizila.com/alibaba-cloud-releases-qwen2-5-omni-7b-an-end-to-end-multimodal-ai-model/

About เด็กฝึกงาน TechTalkThai หมายเลข 1

นักเขียนผู้มีความสนใจใน Enterprise IT ด้วยประสบการณ์กว่า 10 ปีในไทย ปัจจุบันใช้ชีวิตอยู่ที่สหรัฐอเมริกา แต่ยังคงมุ่งมั่นในการแบ่งปันความรู้และประสบการณ์ด้านเทคโนโลยีให้กับทุกคน

Check Also

Sonar เข้าซื้อกิจการ Gitar สตาร์ตอัป AI Code Review ยกระดับระบบตรวจสอบโค้ดด้วย Agentic Reasoning

Sonar ผู้ให้บริการแพลตฟอร์มตรวจสอบคุณภาพและความมั่นคงปลอดภัยของโค้ด ประกาศเข้าซื้อกิจการ Gitar สตาร์ตอัปผู้เชี่ยวชาญด้านระบบ AI-native Code Review การเข้าซื้อกิจการครั้งนี้มีเป้าหมายเพื่อผสานความสามารถด้านการคิดวิเคราะห์ของ Gitar เข้ากับเอนจินตรวจสอบโค้ดของ Sonar เพื่อสร้างความมั่นคงปลอดภัยที่รัดกุมยิ่งขึ้นสำหรับทีม DevOps ในยุคที่ …

Huawei เปิดตัวสถาปัตยกรรมชิปใหม่ แก้ปัญหาคว่ำบาตรและข้อจำกัด Moore’s Law

Huawei Technologies ยักษ์ใหญ่ด้านอิเล็กทรอนิกส์จากจีนได้เปิดตัวเฟรมเวิร์กการออกแบบชิปใหม่ ซึ่งบริษัทระบุว่าจะช่วยลดช่องว่างในอุตสาหกรรมเซมิคอนดักเตอร์กับผู้นำระดับโลกอย่าง TSMC และ Nvidia ได้