Veo 3.1 FastはGoogleのDeepMindによるフラッグシップビデオモデルで、ネイティブサウンドを生成するというユニークな機能で他の競合モデルと一線を画しています。他のAIビデオモデルはビジュアルのみを生成し、サウンドはビデオエディターで別途追加する必要があります。Veo 3.1はプロンプト内でサウンドの説明を理解し、画像と同時にオーディオを生成します。
これにより、ビーチのシーンでは波とカモメの音、都市の雨では石畳に落ちる雨滴の特徴的な音、フレーム内のナレーターは指定されたスピーチを同期して「話す」ことができます。ネイティブオーディオの品質は、すでにソーシャルメディアコンテンツやプロモーション素材に十分です。
サウンドに加えて、Veo 3.1 Fastはリアルな動きの物理学と複雑なシーンの高品質な処理を特徴としています。1ビデオあたり40クレジットのコストは、ポストプロセッシングなしでサウンドが重要なコンテンツにおいて、このモデルのユニークさを反映しています。