Kling est une série de modèles vidéo de la société chinoise Kuaishou, qui se classe régulièrement en tête des benchmarks indépendants de génération vidéo. La version v2.1 a considérablement amélioré le réalisme de la physique par rapport à ses prédécesseurs : l'eau coule et éclabousse avec des tourbillons crédibles, le tissu réagit au vent et au mouvement, le feu se développe de manière dynamique. C'est pourquoi Kling est souvent appelé le meilleur modèle pour animer des portraits et des scènes naturelles.
Le modèle fonctionne en deux modes. En mode Image-to-Video (i2v), vous téléchargez une photo et recevez un clip vidéo avec un mouvement organique. En mode Text-to-Video (t2v), vous décrivez la scène en texte — le modèle la génère à partir de zéro. Dans les deux cas, vous pouvez contrôler le mouvement de la caméra en ajoutant des instructions comme "panoramique lent vers la droite" ou "zoom cinématographique vers l'extérieur" à l'invite.
Le coût — 30 crédits pour I2V et 20 pour T2V — reflète les coûts computationnels élevés de la génération. Si le budget est limité, Wan 2.1 offre un bon résultat pour 4 crédits.