Runway / Midjourney / DALL-E / Flux で同じサムネプロンプトを使い回せますか?

「人物アップ / オブジェクト / 対比型」の構図設計部分はどのサービスでも有効ですが、文字描画の扱いが大きく異なります。DALL-E と Flux は文字をある程度描けますが、Midjourney / SD は文字が不安定です。本テンプレは「文字は AI 生成に含めず Canva / Photoshop で後乗せ」前提なので、その方針なら 4 サービスとも流用しやすいです。各サービスのアスペクト比指定の構文だけは公式ドキュメントで個別確認してください。

YouTube / TikTok のサムネに AI 生成画像を使う場合、規約上の注意は?

YouTube はサムネが「視聴者を誤解させる」場合 (実際の動画内容と乖離、過激な装い) のガイドライン違反を明文化しています。TikTok / Shorts も類似の方針があります。AI 生成かどうか自体はラベル表示ポリシーが各プラットフォームで更新中なので、最新のクリエイター向けヘルプを投稿前に確認してください。誇大表現や数字の根拠なし表記は景品表示法上のリスクにもなり得ます。

週 10 本サムネを量産する中で「これ以上良くならない」と判断する基準は?

量産フローでは「1 サムネにかける生成時間の上限」を先に決めるのが現実的です。例えば 1 本につき 15 分以内 (生成 5 分 + 選定 10 分) と決めて、その時間内で最良の 1 枚を選ぶ運用にすると、無限ループを防げます。CTR が伸びない時はサムネ単体を粘るより、タイトル・最初の 3 秒・サムネの 3 点をセットで仮説検証する方が改善ループが短くなります。

チャンネル統一感を AI で再現する時、毎回違う顔・人物になってしまいます

同一人物を維持するには、(1) LoRA / Textual Inversion で人物の特徴を学習させる (SD)、(2) Midjourney の --cref や Style Reference を使う、(3) Flux で顔リファレンス画像を渡す、のいずれかが必要です。プロンプトの文字指示だけで顔の同一性を保つのは現状難しいため、シリーズ動画ではどのサービスの顔リファレンス機能を使うか先に方針を決めるのが安定運用のコツです。

画像生成 2026-05-18 更新

動画サムネ用の静止画を Runway/Midjourney で量産するプロンプト

いつ使うか

YouTube / TikTok / Shorts のサムネを毎本作る時、サムネが似たり寄ったりになりがち。表情・構図・色味のフックを言語化して AI に静止画を量産させ、文字は Photoshop / Canva で後乗せする。週10本動画を回すクリエイターの定型化に使う。

プロンプト本文 (コピペして使う)

あなたは動画サムネ専門のビジュアルディレクターです。以下の動画のサムネ用画像を生成するプロンプトを書いてください。

## 動画情報
- タイトル (仮): <例: 「AI で月10万、ガチ手順全公開」>
- ジャンル: <例: 副業 / お金 / AI>
- 媒体: <YouTube 横長 / Shorts 縦長 / TikTok 縦長>
- アスペクト比: <16:9 / 9:16>
- 載せる文字: <例: 「月10万 ガチ手順」(15文字以内)、サムネには文字は載せず後付け>

## サムネに必要な要素
1. **視線を止めるフック** (人物の表情 / 意外な構図 / 色のコントラスト)
2. **文字が映える余白** (どこに文字を載せるか、その領域を平面的に保つ)
3. **クリック誘発の感情** (驚き / 共感 / 好奇心 / 不安解消)
4. **チャンネル/シリーズ統一感** (色・トーン・人物の有無を揃える)

## サムネ用の構図3パターン
- パターンA: **人物アップ + 表情訴求** (顔の表情で感情を出す、文字は左半分)
- パターンB: **オブジェクト+構図** (お金・PC・グラフなど、文字は中央上)
- パターンC: **対比型** (Before/After 構図、文字は中央)

## 出力
各パターンごとに:
1. **画像プロンプト** (英語、80-120 words)
2. **アスペクト比 + パラメータ** (Midjourney なら --ar、Runway なら相当)
3. **色パレット** (3-4色、HEX)
4. **文字を載せる予定領域** (左/中央/右、上/中/下)
5. **このパターンが効くクリック理由** (1-2文)
6. **チャンネル統一感のための再利用要素** (このパターンを他動画でも使う時に固定する要素)

## 制約
- 文字は画像生成に含めない (AI の文字描画は不安定、Canva/Photoshop で後乗せ)
- 釣りタイトルと中身が乖離するサムネは作らない
- 人物のアップは破綻リスクが上がるので、必要な場合は引きから少し寄せる程度
- YouTube ガイドライン違反 (誤解を招く表現、暴力的なサムネ) を避ける
- 同一チャンネルで使う場合、人物の同一性を保つために LoRA / 顔リファレンス指定を推奨

効くポイント

「文字を載せる予定領域」を最初に決めさせると、後の Canva/Photoshop 編集が分単位で済む
3パターン (人物 / オブジェクト / 対比) を固定で出させると、シリーズの量産が機械的になる
チャンネル統一感のための再利用要素を聞くと、ブランディングが安定する

よくある質問

Runway / Midjourney / DALL-E / Flux で同じサムネプロンプトを使い回せますか?: 「人物アップ / オブジェクト / 対比型」の構図設計部分はどのサービスでも有効ですが、文字描画の扱いが大きく異なります。DALL-E と Flux は文字をある程度描けますが、Midjourney / SD は文字が不安定です。本テンプレは「文字は AI 生成に含めず Canva / Photoshop で後乗せ」前提なので、その方針なら 4 サービスとも流用しやすいです。各サービスのアスペクト比指定の構文だけは公式ドキュメントで個別確認してください。
YouTube / TikTok のサムネに AI 生成画像を使う場合、規約上の注意は?: YouTube はサムネが「視聴者を誤解させる」場合 (実際の動画内容と乖離、過激な装い) のガイドライン違反を明文化しています。TikTok / Shorts も類似の方針があります。AI 生成かどうか自体はラベル表示ポリシーが各プラットフォームで更新中なので、最新のクリエイター向けヘルプを投稿前に確認してください。誇大表現や数字の根拠なし表記は景品表示法上のリスクにもなり得ます。
週 10 本サムネを量産する中で「これ以上良くならない」と判断する基準は?: 量産フローでは「1 サムネにかける生成時間の上限」を先に決めるのが現実的です。例えば 1 本につき 15 分以内 (生成 5 分 + 選定 10 分) と決めて、その時間内で最良の 1 枚を選ぶ運用にすると、無限ループを防げます。CTR が伸びない時はサムネ単体を粘るより、タイトル・最初の 3 秒・サムネの 3 点をセットで仮説検証する方が改善ループが短くなります。
チャンネル統一感を AI で再現する時、毎回違う顔・人物になってしまいます: 同一人物を維持するには、(1) LoRA / Textual Inversion で人物の特徴を学習させる (SD)、(2) Midjourney の --cref や Style Reference を使う、(3) Flux で顔リファレンス画像を渡す、のいずれかが必要です。プロンプトの文字指示だけで顔の同一性を保つのは現状難しいため、シリーズ動画ではどのサービスの顔リファレンス機能を使うか先に方針を決めるのが安定運用のコツです。

このプロンプトを実戦で使った所感や改善案があればぜひフィードバックを。姉妹サイト ai-pick.tech では AI x SNS集客の運用ノウハウを公開しています。