Veo 3.1 Fast là mô hình video hàng đầu của Google từ DeepMind, nổi bật giữa tất cả các đối thủ với một tính năng độc đáo: nó tạo ra video với âm thanh gốc. Tất cả các mô hình video AI khác chỉ tạo ra hình ảnh — âm thanh phải được thêm vào riêng trong trình chỉnh sửa video. Veo 3.1 hiểu mô tả của âm thanh đi kèm trực tiếp trong yêu cầu và tạo ra âm thanh đồng thời với hình ảnh.
Điều này có nghĩa là một cảnh bãi biển sẽ có âm thanh của sóng và tiếng hải âu, mưa trong thành phố sẽ có âm thanh đặc trưng của giọt mưa trên đá cuội, và một người kể chuyện trong khung hình sẽ đồng bộ 'nói' lời đã chỉ định. Chất lượng âm thanh gốc đã đủ tốt cho nội dung mạng xã hội và tài liệu quảng cáo.
Ngoài âm thanh, Veo 3.1 Fast còn có tính năng vật lý chuyển động thực tế và xử lý chất lượng cao cho các cảnh phức tạp. Chi phí 40 tín dụng cho mỗi video phản ánh tính độc đáo của mô hình — cho nội dung mà âm thanh không cần xử lý hậu kỳ là quan trọng, đây là công cụ lựa chọn.