Google เปิดตัวโมเดลสร้างวิดีโอ Veo 2 และ Whisk เครื่องมือผสมภาพใหม่ที่มาพร้อมโมเดลสร้างภาพ Imagen 3 รุ่นอัปเกรด

Google เปิดตัว Veo 2 ซึ่งเป็นโมเดลปัญญาประดิษฐ์ (AI) รุ่นใหม่ที่สามารถสร้างวิดีโอความละเอียดสูงได้ยาวสูงสุดถึงสองนาที พร้อมเวอร์ชันใหม่ของ Imagen 3 ซึ่งเป็น AI สร้างภาพหลักของ Google ที่คุณภาพสูงขึ้น และ Whisk เครื่องมือใหม่ที่ใช้ Imagen 3 ในการผสมภาพที่มีอยู่เข้าด้วยกัน

Credit: Google

Veo 2 สามารถสร้างวิดีโอจากคำสั่งที่เป็นภาษาธรรมชาติ ผ่านประโยคต่าง ๆ ที่ผู้ใช้ป้อนเพื่ออธิบายวัตถุที่ต้องการให้ปรากฏในคลิป รวมถึงวิธีการนำเสนอวัตถุดังกล่าว โดยผู้ใช้สามารถเลือกระบุคำสั่งสำหรับเฉพาะช่วงเวลาใดเวลาหนึ่ง เช่น ตอนจบของวิดีโอ ทั้งยังสามารถปรับแต่งการตั้งค่าการถ่ายทำของคลิปและจำลองคุณสมบัติของกล้องอย่างประเภทของเลนส์หรือฟิล์ม เช่น ผู้ใช้อาจสั่งให้ Veo 2 สร้างวิดีโอเสมือนถ่ายด้วยเลนส์ 18 มม. ที่เหมาะกับการถ่ายมุมกว้าง นอกจากนี้โมเดลดังกล่าวยังรองรับเอฟเฟกต์ภาพยนตร์ต่าง ๆ เช่น ในตัวอย่างหนึ่ง Google ให้ Veo 2 สร้างวิดีโอด้วยการจัดแสงแบบ volumetric ซึ่งเป็นเทคนิคการสร้างลำแสงที่สมจริง

Veo 2 เป็นรุ่นต่อยอดจาก AI สร้างวิดีโอที่มีชื่อเดียวกันซึ่งเปิดตัวไปเมื่อเดือนพฤษภาคมที่ผ่านมา โดยสามารถสร้างคลิปที่สมจริงและมีรายละเอียดมากขึ้นจากรุ่นก่อน ด้วยความละเอียดสูงสุดระดับ 4K ทั้งยังมีความแม่นยำและเกิดความผิดพลาดในการประมวลผลน้อยลงอีกด้วย ทั้งนี้ Google ได้ทดสอบโมเดลใหม่ด้วย MovieGenBench ซึ่งเป็นเครื่องมือประเมินที่พัฒนาโดย Meta และเปิดให้ใช้งานแบบโอเพนซอร์ส โดยผู้ใช้งาน 1,003 คนได้เปรียบเทียบ Veo 2 กับเครื่องมือสร้างวิดีโออื่น ๆ พบว่า Veo 2 ได้คะแนนเหนือกว่าคู่แข่ง เช่น Sora Turbo ของ OpenAI ในด้าน ความนิยมโดยรวม และความสามารถในการทำตามคำสั่งได้อย่างแม่นยำ อย่างไรก็ตาม Veo 2 ก็ยังมีข้อจำกัดบางประการ โดย Google ระบุว่าโมเดลนี้ยังมีปัญหาในการรักษาความสม่ำเสมอของเฟรมในฉากที่ซับซ้อนหรือมีการเคลื่อนไหวที่ยุ่งยาก

บริษัทวางแผนที่จะรวม Veo 2 เข้ากับผลิตภัณฑ์หลายตัว เช่น YouTube Shorts และ Vertex AI ซึ่งเป็นเครื่องมือพัฒนา AI ของ Google Cloud โดยในช่วงแรก Veo 2 จะเปิดให้ใช้งานผ่าน Google Labs ซึ่งเป็นบริการที่ให้ผู้ใช้ลงชื่อต่อคิวเพื่อทดลองฟีเจอร์ AI ใหม่ ๆ

นอกจากนี้ Google ยังเปิดตัว Imagen 3 รุ่นใหม่ที่สามารถสร้างภาพที่มีรายละเอียดและพื้นผิวที่สมจริงมากขึ้น ทั้งยังตอบสนองต่อคำสั่งของผู้ใช้ได้ดีขึ้น และยังนำมาใช้ขับเคลื่อน Whisk ซึ่งเป็นบริการใหม่ที่ให้ผู้ใช้รวมภาพที่มีอยู่หลายภาพเข้าด้วยกัน โดยสามารถนำสไตล์ของภาพหนึ่งไปใส่ในฉากหลังของอีกภาพได้ ทั้งนี้ เบื้องหลังของ Whisk นั้นใช้ทั้ง Imagen 3 และโมเดลภาษา Gemini ของ Google โดยเมื่อผู้ใช้อัปโหลดภาพที่ต้องการรวมกัน Gemini ก็จะสร้างคำอธิบายรายละเอียดสำหรับแต่ละภาพ เพื่อช่วยให้ Imagen 3 ดำเนินการรวมภาพได้อย่างแม่นยำ

ที่มา: https://siliconangle.com/2024/12/16/google-debuts-veo-2-video-generator-upgraded-imagen-3/

About นักเขียนฝึกหัดหมายเลขเก้า

Check Also

Elastic 9.4 ออกแล้ว

Elastic ได้ออกมาประกาศเปิดตัว Elastic 9.4 อย่างเป็นทางการ โดยเพิ่มความสามารถในการตรวจสอบการทำงานของ Context Engineering, Application และ Infrastructure เพิ่มเติม, เสริม AI ในการรักษาความมั่นคงปลอดภัย และเพิ่มความสามารถอื่นๆ อีกมากมาย ดังนี้

Extreme Networks เปิดตัว Wi-Fi 7 AP รุ่นใหม่ พร้อม Agentic AI สำหรับบริหารจัดการระบบเครือข่ายแบบอัตโนมัติ

Extreme Networks ได้ออกมาประกาศถึงอัปเดตครั้งใหญ่ โดยเปิดตัว Wi-Fi 7 Access Point รุ่นใหม่ล่าสุด 5 รุ่น พร้อมนวัตกรรมใหม่ในการบริหารจัดการระบบเครือข่ายด้วย AI Agent เพื่อดูแลรักษาระบบเครือข่ายขององค์กรให้ทำงานได้อย่างต่อเนื่องโดยอัตโนมัติ