JAKARTA - Google secara resmi meluncurkan Veo 3, model generatif video berbasis AI terbaru, dalam ajang Google I/O pekan ini. Salah satu fitur unggulan dari Veo 3 adalah kemampuannya untuk menghasilkan audio otomatis—baik suara latar, dialog, maupun efek suara—tanpa memerlukan input suara dari pengguna. Hal ini menandai lompatan besar dalam teknologi generatif, sekaligus menimbulkan berbagai reaksi dari para pengamat teknologi.
Dalam sebuah ulasan yang ditulis oleh Allison Johnson, jurnalis teknologi dengan pengalaman lebih dari 10 tahun, Veo 3 disebut sebagai "mesin slop AI" karena kemampuannya menghasilkan konten visual dan audio yang sangat realistis, meskipun tidak selalu relevan atau sesuai dengan keinginan pengguna. Johnson mencatat bahwa saat dirinya mencoba membuat video menggunakan prompt teks sederhana, Veo 3 dapat menambahkan dialog yang tidak pernah diminta—dengan gerakan tubuh dan suasana yang cukup meyakinkan.
Contohnya, ketika membuat video tentang kebakaran di Space Needle, AI ini tidak hanya menampilkan visual bencana, tetapi juga menambahkan seorang pembawa berita yang menyampaikan laporan peristiwa tersebut dengan suara dan latar suara realistis.
Hal serupa juga dilakukan oleh Alejandra Caraballo, seorang instruktur di Harvard Law School, yang berhasil membuat video palsu pembawa berita yang mengumumkan kematian Menteri Pertahanan AS, Pete Hegseth—padahal tokoh tersebut masih hidup.
Google mengklaim telah menerapkan pembatasan dan guardrails dalam penggunaan Veo 3. Misalnya, pengguna tidak dapat membuat video tentang presiden jatuh, pembunuhan tokoh publik, atau CEO teknologi yang tertawa di tengah hujan uang. Namun, Johnson menegaskan bahwa tanpa celah atau trik khusus pun, pengguna tetap bisa membuat video yang berpotensi menyesatkan, seperti bencana alam palsu atau peristiwa fiktif yang seolah-olah disampaikan oleh lembaga berita resmi.
Meski demikian, Veo 3 belum bisa digunakan untuk membuat deepfake personal secara langsung. Ketika Johnson mencoba membuat video menggunakan foto dirinya dengan dialog tertentu, sistem menolak memprosesnya. Namun, untuk konten sederhana seperti video kartun anak-anak, Veo 3 sangat efektif. Ia mampu menciptakan video mirip konten YouTube Kids—truk monster yang meluncur ke dalam cat warna-warni, lengkap dengan musik dan efek suara—dalam hitungan menit.
BACA JUGA:
Kekhawatiran terbesar Johnson justru muncul ketika mencoba membuat video dua kucing kartun yang sedang memancing. Tanpa menyertakan dialog dalam prompt, AI tetap menghasilkan percakapan antar-kucing yang terdengar alami. Dari sinilah muncul pertanyaan besar: jika membuat video pendek semudah ini, berapa lama lagi hingga masyarakat mulai memproduksi video panjang berisi informasi menyesatkan hanya dengan AI?
Untuk saat ini, video yang ingin diperpanjang durasinya akan dikembalikan ke sistem Veo 2, yang belum mendukung fitur audio otomatis. Namun, dengan kecepatan pengembangan teknologi oleh Google, banyak pihak meyakini bahwa video AI berdurasi penuh akan segera menjadi kenyataan.
Google sendiri menunjukkan potensi positif teknologi ini dengan menampilkan hasil kolaborasi Eliza McNitt dan sutradara kenamaan Darren Aronofsky, yang tengah mengembangkan film dengan elemen-elemen video AI.
Meski demikian, Allison Johnson menutup laporannya dengan nada kritis. Menurutnya, alih-alih menghasilkan karya sinematik berkualitas tinggi, Veo 3 kemungkinan besar justru akan digunakan untuk membanjiri internet dengan konten generik dan hambar yang kini dibuat lebih mudah—dengan gambar, gerakan, dan suara buatan AI.