Veo 3.1 Fast est le modèle vidéo phare de Google de DeepMind, se distinguant parmi tous les concurrents par une caractéristique unique : il génère des vidéos avec son natif. Tous les autres modèles vidéo IA créent uniquement des visuels — le son doit être ajouté séparément dans un éditeur vidéo. Veo 3.1 comprend la description de l'accompagnement sonore directement dans l'invite et génère l'audio simultanément avec l'image.
Cela signifie qu'une scène de plage aura le son des vagues et des mouettes, la pluie en ville aura le bruit caractéristique des gouttes de pluie sur les pavés, et un narrateur dans le cadre 'parlera' de manière synchrone le discours spécifié. La qualité de l'audio natif est déjà suffisante pour le contenu des réseaux sociaux et les supports promotionnels.
En plus du son, Veo 3.1 Fast propose une physique de mouvement réaliste et un traitement de haute qualité des scènes complexes. Le coût de 40 crédits par vidéo reflète l'unicité du modèle — pour le contenu où le son sans post-traitement est important, c'est l'outil de choix.