テキストからビデオを生成すること(テキスト・トゥ・ビデオ)は、現代AIの最も印象的な成果の一つです。見たいものを言葉で説明します:キャラクター、環境、動き、撮影スタイル、ムード — 1〜3分で現実には存在しない3〜5秒のビデオクリップが得られます。
結果の品質はプロンプトの詳細に大きく依存します。効果的なフォーミュラには、アクションの主題、具体的に何が起こっているか、環境と雰囲気、スタイル(シネマトグラフィー、アニメーション、ドキュメンタリー)、カメラの動き(左にパン、ズームイン、静止ショット)が含まれます。例えば:「ジンジャーキャットが東京の濡れた夜の街を歩き、ネオンの看板が水たまりに反射し、カメラがゆっくりと後退し、シネマティックスタイル、24fps」。
Wan 2.1は3クレジットで、アイデアを素早くテストするのに最適です。Kling v2.1は20クレジットで、リアルな動きの物理を備えたシネマティック品質を提供し、最終コンテンツに最適です。