Google เปิดตัวโมเดลสร้างวิดีโอ Veo 2 และ Whisk เครื่องมือผสมภาพใหม่ที่มาพร้อมโมเดลสร้างภาพ Imagen 3 รุ่นอัปเกรด

Google เปิดตัว Veo 2 ซึ่งเป็นโมเดลปัญญาประดิษฐ์ (AI) รุ่นใหม่ที่สามารถสร้างวิดีโอความละเอียดสูงได้ยาวสูงสุดถึงสองนาที พร้อมเวอร์ชันใหม่ของ Imagen 3 ซึ่งเป็น AI สร้างภาพหลักของ Google ที่คุณภาพสูงขึ้น และ Whisk เครื่องมือใหม่ที่ใช้ Imagen 3 ในการผสมภาพที่มีอยู่เข้าด้วยกัน

Credit: Google

Veo 2 สามารถสร้างวิดีโอจากคำสั่งที่เป็นภาษาธรรมชาติ ผ่านประโยคต่าง ๆ ที่ผู้ใช้ป้อนเพื่ออธิบายวัตถุที่ต้องการให้ปรากฏในคลิป รวมถึงวิธีการนำเสนอวัตถุดังกล่าว โดยผู้ใช้สามารถเลือกระบุคำสั่งสำหรับเฉพาะช่วงเวลาใดเวลาหนึ่ง เช่น ตอนจบของวิดีโอ ทั้งยังสามารถปรับแต่งการตั้งค่าการถ่ายทำของคลิปและจำลองคุณสมบัติของกล้องอย่างประเภทของเลนส์หรือฟิล์ม เช่น ผู้ใช้อาจสั่งให้ Veo 2 สร้างวิดีโอเสมือนถ่ายด้วยเลนส์ 18 มม. ที่เหมาะกับการถ่ายมุมกว้าง นอกจากนี้โมเดลดังกล่าวยังรองรับเอฟเฟกต์ภาพยนตร์ต่าง ๆ เช่น ในตัวอย่างหนึ่ง Google ให้ Veo 2 สร้างวิดีโอด้วยการจัดแสงแบบ volumetric ซึ่งเป็นเทคนิคการสร้างลำแสงที่สมจริง

Veo 2 เป็นรุ่นต่อยอดจาก AI สร้างวิดีโอที่มีชื่อเดียวกันซึ่งเปิดตัวไปเมื่อเดือนพฤษภาคมที่ผ่านมา โดยสามารถสร้างคลิปที่สมจริงและมีรายละเอียดมากขึ้นจากรุ่นก่อน ด้วยความละเอียดสูงสุดระดับ 4K ทั้งยังมีความแม่นยำและเกิดความผิดพลาดในการประมวลผลน้อยลงอีกด้วย ทั้งนี้ Google ได้ทดสอบโมเดลใหม่ด้วย MovieGenBench ซึ่งเป็นเครื่องมือประเมินที่พัฒนาโดย Meta และเปิดให้ใช้งานแบบโอเพนซอร์ส โดยผู้ใช้งาน 1,003 คนได้เปรียบเทียบ Veo 2 กับเครื่องมือสร้างวิดีโออื่น ๆ พบว่า Veo 2 ได้คะแนนเหนือกว่าคู่แข่ง เช่น Sora Turbo ของ OpenAI ในด้าน ความนิยมโดยรวม และความสามารถในการทำตามคำสั่งได้อย่างแม่นยำ อย่างไรก็ตาม Veo 2 ก็ยังมีข้อจำกัดบางประการ โดย Google ระบุว่าโมเดลนี้ยังมีปัญหาในการรักษาความสม่ำเสมอของเฟรมในฉากที่ซับซ้อนหรือมีการเคลื่อนไหวที่ยุ่งยาก

บริษัทวางแผนที่จะรวม Veo 2 เข้ากับผลิตภัณฑ์หลายตัว เช่น YouTube Shorts และ Vertex AI ซึ่งเป็นเครื่องมือพัฒนา AI ของ Google Cloud โดยในช่วงแรก Veo 2 จะเปิดให้ใช้งานผ่าน Google Labs ซึ่งเป็นบริการที่ให้ผู้ใช้ลงชื่อต่อคิวเพื่อทดลองฟีเจอร์ AI ใหม่ ๆ

นอกจากนี้ Google ยังเปิดตัว Imagen 3 รุ่นใหม่ที่สามารถสร้างภาพที่มีรายละเอียดและพื้นผิวที่สมจริงมากขึ้น ทั้งยังตอบสนองต่อคำสั่งของผู้ใช้ได้ดีขึ้น และยังนำมาใช้ขับเคลื่อน Whisk ซึ่งเป็นบริการใหม่ที่ให้ผู้ใช้รวมภาพที่มีอยู่หลายภาพเข้าด้วยกัน โดยสามารถนำสไตล์ของภาพหนึ่งไปใส่ในฉากหลังของอีกภาพได้ ทั้งนี้ เบื้องหลังของ Whisk นั้นใช้ทั้ง Imagen 3 และโมเดลภาษา Gemini ของ Google โดยเมื่อผู้ใช้อัปโหลดภาพที่ต้องการรวมกัน Gemini ก็จะสร้างคำอธิบายรายละเอียดสำหรับแต่ละภาพ เพื่อช่วยให้ Imagen 3 ดำเนินการรวมภาพได้อย่างแม่นยำ

ที่มา: https://siliconangle.com/2024/12/16/google-debuts-veo-2-video-generator-upgraded-imagen-3/

About นักเขียนฝึกหัดหมายเลขเก้า

Check Also

Salesforce เข้าซื้อกิจการ Fin มูลค่าราว 3,600 ล้านดอลลาร์ เสริมแกร่ง AI Agent งานบริการลูกค้า

Salesforce ประกาศลงนามข้อตกลงขั้นสุดท้ายเข้าซื้อกิจการ Fin ผู้ให้บริการแพลตฟอร์ม customer agent ในมูลค่าราว 3,600 ล้านดอลลาร์สหรัฐ เพื่อนำเทคโนโลยี AI Agent สำหรับงานบริการลูกค้ามาเสริมความสามารถให้กับ Agentforce

Cisco ออกแพตช์แก้ช่องโหว่ Zero-day บน Catalyst SD-WAN Manager ที่ถูกใช้โจมตียกระดับสิทธิ์เป็น root

Cisco ปล่อยอัปเดตด้านความปลอดภัยแก้ช่องโหว่บน Catalyst SD-WAN Manager (เดิมคือ SD-WAN vManage) หลังพบว่าถูกใช้โจมตีจริงในลักษณะ Zero-day เพื่อยกระดับสิทธิ์เป็น root บนระบบที่ได้รับผลกระทบ