Google เปิดตัวโมเดลสร้างวิดีโอ Veo 2 และ Whisk เครื่องมือผสมภาพใหม่ที่มาพร้อมโมเดลสร้างภาพ Imagen 3 รุ่นอัปเกรด

Google เปิดตัว Veo 2 ซึ่งเป็นโมเดลปัญญาประดิษฐ์ (AI) รุ่นใหม่ที่สามารถสร้างวิดีโอความละเอียดสูงได้ยาวสูงสุดถึงสองนาที พร้อมเวอร์ชันใหม่ของ Imagen 3 ซึ่งเป็น AI สร้างภาพหลักของ Google ที่คุณภาพสูงขึ้น และ Whisk เครื่องมือใหม่ที่ใช้ Imagen 3 ในการผสมภาพที่มีอยู่เข้าด้วยกัน

Credit: Google

Veo 2 สามารถสร้างวิดีโอจากคำสั่งที่เป็นภาษาธรรมชาติ ผ่านประโยคต่าง ๆ ที่ผู้ใช้ป้อนเพื่ออธิบายวัตถุที่ต้องการให้ปรากฏในคลิป รวมถึงวิธีการนำเสนอวัตถุดังกล่าว โดยผู้ใช้สามารถเลือกระบุคำสั่งสำหรับเฉพาะช่วงเวลาใดเวลาหนึ่ง เช่น ตอนจบของวิดีโอ ทั้งยังสามารถปรับแต่งการตั้งค่าการถ่ายทำของคลิปและจำลองคุณสมบัติของกล้องอย่างประเภทของเลนส์หรือฟิล์ม เช่น ผู้ใช้อาจสั่งให้ Veo 2 สร้างวิดีโอเสมือนถ่ายด้วยเลนส์ 18 มม. ที่เหมาะกับการถ่ายมุมกว้าง นอกจากนี้โมเดลดังกล่าวยังรองรับเอฟเฟกต์ภาพยนตร์ต่าง ๆ เช่น ในตัวอย่างหนึ่ง Google ให้ Veo 2 สร้างวิดีโอด้วยการจัดแสงแบบ volumetric ซึ่งเป็นเทคนิคการสร้างลำแสงที่สมจริง

Veo 2 เป็นรุ่นต่อยอดจาก AI สร้างวิดีโอที่มีชื่อเดียวกันซึ่งเปิดตัวไปเมื่อเดือนพฤษภาคมที่ผ่านมา โดยสามารถสร้างคลิปที่สมจริงและมีรายละเอียดมากขึ้นจากรุ่นก่อน ด้วยความละเอียดสูงสุดระดับ 4K ทั้งยังมีความแม่นยำและเกิดความผิดพลาดในการประมวลผลน้อยลงอีกด้วย ทั้งนี้ Google ได้ทดสอบโมเดลใหม่ด้วย MovieGenBench ซึ่งเป็นเครื่องมือประเมินที่พัฒนาโดย Meta และเปิดให้ใช้งานแบบโอเพนซอร์ส โดยผู้ใช้งาน 1,003 คนได้เปรียบเทียบ Veo 2 กับเครื่องมือสร้างวิดีโออื่น ๆ พบว่า Veo 2 ได้คะแนนเหนือกว่าคู่แข่ง เช่น Sora Turbo ของ OpenAI ในด้าน ความนิยมโดยรวม และความสามารถในการทำตามคำสั่งได้อย่างแม่นยำ อย่างไรก็ตาม Veo 2 ก็ยังมีข้อจำกัดบางประการ โดย Google ระบุว่าโมเดลนี้ยังมีปัญหาในการรักษาความสม่ำเสมอของเฟรมในฉากที่ซับซ้อนหรือมีการเคลื่อนไหวที่ยุ่งยาก

บริษัทวางแผนที่จะรวม Veo 2 เข้ากับผลิตภัณฑ์หลายตัว เช่น YouTube Shorts และ Vertex AI ซึ่งเป็นเครื่องมือพัฒนา AI ของ Google Cloud โดยในช่วงแรก Veo 2 จะเปิดให้ใช้งานผ่าน Google Labs ซึ่งเป็นบริการที่ให้ผู้ใช้ลงชื่อต่อคิวเพื่อทดลองฟีเจอร์ AI ใหม่ ๆ

นอกจากนี้ Google ยังเปิดตัว Imagen 3 รุ่นใหม่ที่สามารถสร้างภาพที่มีรายละเอียดและพื้นผิวที่สมจริงมากขึ้น ทั้งยังตอบสนองต่อคำสั่งของผู้ใช้ได้ดีขึ้น และยังนำมาใช้ขับเคลื่อน Whisk ซึ่งเป็นบริการใหม่ที่ให้ผู้ใช้รวมภาพที่มีอยู่หลายภาพเข้าด้วยกัน โดยสามารถนำสไตล์ของภาพหนึ่งไปใส่ในฉากหลังของอีกภาพได้ ทั้งนี้ เบื้องหลังของ Whisk นั้นใช้ทั้ง Imagen 3 และโมเดลภาษา Gemini ของ Google โดยเมื่อผู้ใช้อัปโหลดภาพที่ต้องการรวมกัน Gemini ก็จะสร้างคำอธิบายรายละเอียดสำหรับแต่ละภาพ เพื่อช่วยให้ Imagen 3 ดำเนินการรวมภาพได้อย่างแม่นยำ

ที่มา: https://siliconangle.com/2024/12/16/google-debuts-veo-2-video-generator-upgraded-imagen-3/

About นักเขียนฝึกหัดหมายเลขเก้า

Check Also

Sonar เข้าซื้อกิจการ Gitar สตาร์ตอัป AI Code Review ยกระดับระบบตรวจสอบโค้ดด้วย Agentic Reasoning

Sonar ผู้ให้บริการแพลตฟอร์มตรวจสอบคุณภาพและความมั่นคงปลอดภัยของโค้ด ประกาศเข้าซื้อกิจการ Gitar สตาร์ตอัปผู้เชี่ยวชาญด้านระบบ AI-native Code Review การเข้าซื้อกิจการครั้งนี้มีเป้าหมายเพื่อผสานความสามารถด้านการคิดวิเคราะห์ของ Gitar เข้ากับเอนจินตรวจสอบโค้ดของ Sonar เพื่อสร้างความมั่นคงปลอดภัยที่รัดกุมยิ่งขึ้นสำหรับทีม DevOps ในยุคที่ …

Huawei เปิดตัวสถาปัตยกรรมชิปใหม่ แก้ปัญหาคว่ำบาตรและข้อจำกัด Moore’s Law

Huawei Technologies ยักษ์ใหญ่ด้านอิเล็กทรอนิกส์จากจีนได้เปิดตัวเฟรมเวิร์กการออกแบบชิปใหม่ ซึ่งบริษัทระบุว่าจะช่วยลดช่องว่างในอุตสาหกรรมเซมิคอนดักเตอร์กับผู้นำระดับโลกอย่าง TSMC และ Nvidia ได้