Veo 3.1 Fast ist Googles Flaggschiff-Videomodell von DeepMind, das sich durch ein einzigartiges Merkmal von allen Wettbewerbern abhebt: Es generiert Videos mit nativem Ton. Alle anderen KI-Videomodelle erstellen nur visuelle Inhalte — der Ton muss separat in einem Videoeditor hinzugefügt werden. Veo 3.1 versteht die Beschreibung der Tonbegleitung direkt im Prompt und generiert Audio gleichzeitig mit dem Bild.
Das bedeutet, dass eine Strandszene den Klang von Wellen und Möwen hat, Regen in der Stadt das charakteristische Geräusch von Regentropfen auf Kopfsteinpflaster und ein Erzähler im Bild synchron die angegebene Rede 'spricht'. Die Qualität des nativen Audios ist bereits ausreichend für soziale Medien und Werbematerialien.
Neben dem Ton bietet Veo 3.1 Fast realistische Bewegungsphysik und hochwertige Verarbeitung komplexer Szenen. Die Kosten von 40 Credits pro Video spiegeln die Einzigartigkeit des Modells wider — für Inhalte, bei denen Ton ohne Nachbearbeitung wichtig ist, ist dies das Werkzeug der Wahl.