Veo 3.1 Fast es el modelo de video insignia de Google de DeepMind, destacándose entre todos los competidores con una característica única: genera video con sonido nativo. Todos los demás modelos de video de IA crean solo visuales: el sonido debe añadirse por separado en un editor de video. Veo 3.1 entiende la descripción del acompañamiento sonoro directamente en el prompt y genera audio simultáneamente con la imagen.
Esto significa que una escena de playa tendrá el sonido de las olas y las gaviotas, la lluvia en la ciudad tendrá el ruido característico de las gotas de lluvia sobre los adoquines, y un narrador en el cuadro 'hablará' sincrónicamente el discurso especificado. La calidad del audio nativo ya es suficiente para contenido en redes sociales y materiales promocionales.
Además del sonido, Veo 3.1 Fast presenta física de movimiento realista y procesamiento de alta calidad de escenas complejas. El costo de 40 créditos por video refleja la singularidad del modelo: para contenido donde el sonido sin post-procesamiento es importante, esta es la herramienta de elección.