Veo 3.1 Fast é o modelo de vídeo principal do Google da DeepMind, destacando-se entre todos os concorrentes com uma característica única: gera vídeo com som nativo. Todos os outros modelos de vídeo de IA criam apenas visuais — o som precisa ser adicionado separadamente em um editor de vídeo. Veo 3.1 entende a descrição do acompanhamento sonoro diretamente no prompt e gera áudio simultaneamente com a imagem.
Isso significa que uma cena de praia terá o som das ondas e gaivotas, chuva na cidade terá o ruído característico das gotas de chuva nas pedras, e um narrador no quadro 'falará' sincronamente o discurso especificado. A qualidade do áudio nativo já é suficiente para conteúdo de redes sociais e materiais promocionais.
Além do som, Veo 3.1 Fast apresenta física de movimento realista e processamento de alta qualidade de cenas complexas. O custo de 40 créditos por vídeo reflete a singularidade do modelo — para conteúdo onde o som sem pós-processamento é importante, esta é a ferramenta de escolha.