Tạo video từ văn bản (văn bản thành video) là một trong những thành tựu ấn tượng nhất của AI hiện đại. Bạn mô tả bằng từ ngữ những gì bạn muốn thấy: nhân vật, môi trường, chuyển động, phong cách quay phim và tâm trạng — và trong 1–3 phút bạn nhận được một video clip dài 3–5 giây mà chưa từng tồn tại trong thực tế.
Chất lượng của kết quả phần lớn phụ thuộc vào độ chi tiết của mô tả. Một công thức hiệu quả bao gồm: chủ thể hành động, những gì chính xác đang xảy ra, môi trường và bầu không khí, phong cách (điện ảnh, hoạt hình, tài liệu), chuyển động camera (quay trái, phóng to, cảnh tĩnh). Ví dụ: "Một con mèo vàng đi trên một con phố ướt vào ban đêm ở Tokyo, các biển hiệu neon phản chiếu trong các vũng nước, camera từ từ lùi lại, phong cách điện ảnh, 24fps".
Wan 2.1 có giá 3 tín dụng và rất tuyệt cho việc thử nghiệm ý tưởng nhanh chóng. Kling v2.1 với 20 tín dụng cung cấp chất lượng điện ảnh với chuyển động vật lý thực tế — tối ưu cho nội dung cuối cùng.