「プロンプトって、どう書けばいいんだろう?」——Midjourneyを使い始めたとき、誰もが一度はこの壁にぶつかります。細かいキーワードを並べ、パラメーターを調べ、それでも思い通りの画像が出てこない。そんな悩みをまるごと解消してくれるのが、Midjourneyのカンバセーションモード(Conversational Mode)です。
この記事では、カンバセーションモードの基本的な仕組みから、2026年3月17日にリリースされたばかりのV8アルファで何がどう変わったのか、そして実際にどう使えばクリエイティブな作業が加速するのかを、初心者でも迷わないように順を追って解説します。
- カンバセーションモードは「普通の言葉」でAIと対話しながら画像を作れる革新的な機能で、プロンプト作成の壁を完全に取り除く。
- 2026年3月17日公開のV8アルファで会話フローがさらに自然になり、テキスト入力だけでなく音声入力にも対応している。
- ドラフトモードとの組み合わせで生成速度が最大10倍になり、アイデア出しのスピードが劇的に向上する。
Midjourneyのカンバセーションモードとは何か?

画像生成AIのイメージ
カンバセーションモードとは、一言で言えば「AIと雑談するようにプロンプトを組み立てていける機能」です。従来のMidjourneyでは、/imagineコマンドの後ろに英語のキーワードやパラメーターを一列に並べる必要がありました。正しい単語の組み合わせを知らないと、イメージとかけ離れた画像が出てきてしまうことも多く、初心者にとっては高い壁でした。
カンバセーションモードを使えば、「夕暮れの海辺でコーヒーを飲む女性、映画のワンシーンみたいな雰囲気で」といった普通の日本語や英語のセンテンスを入力するだけで、AIが最適なプロンプトに変換して画像を生成してくれます。プロンプトを自分で書くのではなく、AIに書いてもらうイメージです。これにより、Midjourneyを使うための「専門知識の壁」がほぼなくなりました。
さらに重要なのは、一度生成した画像を起点に対話を続けられる点です。「image 2の雰囲気はいいけど、もっと明るくして」「image 4のバリエーションを作って」のように、生成された画像を番号で指定しながら会話を重ねることで、頭の中のイメージに少しずつ近づけていくことができます。プロのデザイナーがディレクターと打ち合わせをするような感覚で、AIとクリエイティブな対話ができるのです。
テキスト入力と音声入力の2つの使い方
カンバセーションモードには、テキスト入力と音声入力(ボイスモード)の2種類があります。テキスト入力は、イマジンバーにアイデアを文章で打ち込み、Enterを押すだけです。音声入力は、マイクアイコンをクリックしてアイデアを声で話すと、AIが認識して画像を生成します。初めて使う際はブラウザのマイクアクセス許可が必要ですが、設定は数秒で完了します。
注意点として、テキストのカンバセーションモードはドラフトモードなしでも使えますが、音声入力はドラフトモードとの併用が必須です。また、日本語を含む複数の言語にも対応しているので、英語が苦手な方でも安心して使えます。
カンバセーションモードでできることとできないこと
このモードでは、アイデアを伝えることはできますが、プロンプトを直接自分で書くことはできません。AIが自動的にプロンプトを生成するため、細かいパラメーターを手動で指定したい上級者にとっては制限に感じることもあるでしょう。その場合は、カンバセーションモードをオフにして通常のプロンプト入力に切り替えるのが最善です。初心者のうちはカンバセーションモードでイメージを固め、慣れてきたら生成されたプロンプトを参考に自分でカスタマイズするという使い方が特に効果的です。
ドラフトモードとの組み合わせで創作スピードが10倍になる理由
カンバセーションモードと切っても切れない関係にあるのがドラフトモード(Draft Mode)です。ドラフトモードは、通常の生成と比べて最大10倍の速度で画像を生成し、GPUコストも半分という驚異的な効率を誇ります。品質は最終版より低めですが、アイデアを形にして確認する「ラフスケッチ」の段階では十分すぎるクオリティです。
有効にするには、Createページのイマジンバーにある「Draft Mode」ボタンをクリックするか、プロンプトの末尾に–draftを追加するだけです。ドラフト画像の中から気に入ったものが見つかったら、「Enhance」ボタンをクリックすることで、通常品質の高解像度画像に仕上げ直すことができます。
この2つのモードを組み合わせると、創作のワークフローが劇的に変わります。まずカンバセーションモードで会話しながらアイデアをどんどんドラフト生成し、方向性が定まったら最終的な高品質画像に昇華させる、という二段階の流れが自然に生まれます。グラフィックデザインやSNS用の素材制作など、大量のアイデアを素早く試したい場面で特に力を発揮します。
V8アルファで何が変わったのか?カンバセーションモードの進化
2026年3月17日、MidjourneyはV8アルファをalpha.midjourney.comで一般公開しました。このリリースはV5以来最大のアップグレードと評されており、カンバセーションモードも大きく進化しています。
V8での最大の変化は、会話の「流れ」がより自然になった点です。V7までのカンバセーションモードは、返答のたびに若干のぎこちなさを感じる場面がありましたが、V8では「ただ話しかけるだけで流れるように操作できる」という感覚に近づいています。Midjourneyの公式アナウンスでも「フローの中で会話できる改良されたカンバセーションモード」と表現されており、対話のテンポが大幅に改善されました。
また、V8ではウェブインターフェース全体が刷新され、グリッドモード(Grid Mode)とサイドバー設定が新たに追加されました。グリッドモードでは大量の画像を一覧で比較しながらカンバセーションモードで絞り込みができます。設定項目はサイドバーに移動したため、作業エリアを邪魔することなくスタイル調整が可能になりました。
さらに、画像生成速度はV7比で約5倍になっており、これまで30〜60秒かかっていた生成が10秒以内に完了します。ドラフトモードと組み合わせると体感的にはほぼリアルタイムに近い速さでアイデアを確認できるため、会話のリズムを崩さず創作に集中できます。
V8アルファの新機能まとめ
V8で追加・強化された主な機能を整理しておきましょう。
| 機能 | 内容 |
|---|---|
| –hdモード | アップスケールなしでネイティブ2K解像度の画像を生成できる。ただし通常ジョブの4倍コスト。 |
| –q 4モード | 複雑な構図での視覚的一貫性をさらに高める品質オプション。–hdとの同時使用は16倍コスト。 |
| テキストレンダリング強化 | プロンプト内で「引用符」に囲んだテキストが画像内に高精度で表示される。 |
| カンバセーションモード改善 | より自然な会話フローで操作できるよう改良。V8アルファで正式対応。 |
| グリッドモード追加 | 大量の画像を一覧表示して比較・選定しやすくなった新UI。 |
| 後方互換性 | V7のパーソナライゼーションプロファイル、ムードボード、srefがそのまま使える。 |
V8アルファはalpha.midjourney.comからアクセスでき、有効なサブスクリプション(スタンダード、プロ、メガプラン)があればすぐに試せます。なお、2026年3月20日以降はリラックスモードもV8アルファで利用可能になりました。
カンバセーションモードの具体的な使い方ステップ
実際にカンバセーションモードを使う流れを順番に見ていきましょう。
- alpha.midjourney.comまたはmidjourney.comにログインし、左側メニューから「Create」ページを開く。
- イマジンバーの右側にある「Conversational Mode」ボタン(チャットバブルのアイコン)をクリックしてオンにする。
- テキストでアイデアを入力してEnterを押すか、マイクアイコンをクリックして音声で話しかける(音声入力の場合はドラフトモードを先にオンにする)。
- AIがプロンプトを生成して4枚の画像を表示するので、気に入ったものをベースに「image 2をもっと暗い雰囲気にして」のように追加指示を出す。
- 完成イメージに近づいたら「Enhance」ボタンで高品質バージョンに仕上げ、必要に応じて–hdパラメーターで2K解像度に出力する。
使いこなしのコツとして、最初から詳細な要求を一度に伝えようとせず、まず大まかなイメージを伝えて、その後「光をもっと柔らかく」「背景に霧を追加」のように段階的に肉付けしていく方法がおすすめです。まるでスケッチから油絵を描き上げるようなプロセスで、会話を積み重ねるほどイメージが精緻になっていきます。
カンバセーションモードで使えるプロンプト実例集!シーン別にそのまま使える

画像生成AIのイメージ
カンバセーションモードはプロンプトを自分で書かなくていい、というのが最大の強みですが、だからこそ「何を言えばいいか」で詰まる人が意外と多いです。AIへの最初の一言の質で、その後の会話の方向性がほぼ決まります。以下に、実際のシーンごとにそのまま使えるカンバセーションモード向けのセリフを紹介します。AIに話しかけるイメージで、自然な言葉で入力するのがコツです。
ビジネス・商業用途向けの使い方
ブランドやプロダクトの素材を作りたいときは、まず雰囲気と用途を明確に伝えることが大切です。たとえば次のように話しかけてみてください。
- 「高級感のある香水のイメージ写真を作りたい。白と金を基調にして、ミニマルで上品な感じにしてほしい。テキストで”LUST”とボトルに入れて。」
- 「新しいカフェのSNS用カバー画像を作りたい。朝の柔らかい光が差し込む店内で、ラテアートのアップショット。温かみがあって落ち着いた雰囲気で。アスペクト比は16:9で。」
- 「テクノロジースタートアップのピッチデック用のヒーロー画像。都市の夜景を背景に、抽象的なデータの流れを表現した未来的なビジュアル。ブルーとパープルのトーンで。」
ここで重要なのは、用途・色調・アスペクト比の3点を最初の一言に盛り込むことです。会話の中で後から修正できますが、最初から方向性を絞ることで無駄なラウンドが減ります。また、ロゴやテキストを画像内に入れたい場合は必ず引用符で囲んで伝えてください。V8からテキストレンダリングが大幅に改善されているため、商業利用に耐えうる精度で文字を入れられます。
アート・クリエイティブ作品向けの使い方
作品のムードから入るのが一番うまくいきます。「こんな絵を描きたい」よりも「こんな感情を与えたい」という発想の転換が効果的です。
- 「映画のポスターみたいなイメージで、砂漠の夕暮れに一人立つシルエット。孤独だけど力強い感じ。アナログフィルムの質感を入れて。」
- 「日本の古い商店街を舞台にしたノスタルジックなイラスト。昭和30年代くらいの雰囲気で、夕方に子供たちが遊んでいる。水彩画のタッチで柔らかく。」
- 「宇宙空間に浮かぶ図書館。本棚が無限に続いていて、銀河が窓の外に見える。幻想的でサイエンスフィクションっぽく。」
このように感情や雰囲気を優先して言語化すると、カンバセーションモードのAIが「なぜこの画像を作りたいのか」を理解しやすくなり、単なるキーワード羅列では出てこない独自性のあるプロンプトを生成してくれます。「–raw」パラメーターをリクエストの中で伝えると、V8のデフォルト美化処理が外れてより自然でコントロールしやすい出力になるので、写真風や落ち着いた仕上がりを求める場合は積極的に使ってみてください。
現実でよくある「あるあるトラブル」とその具体的な解決手順
ここからが、どのサイトにも書いていない「本当に使ってみて直面した問題」の解決法です。カンバセーションモードは便利な反面、独特のクセがあり、慣れないうちは同じ壁に何度もぶつかります。体験ベースで正直に話します。
トラブル1AIが勝手に解釈して全然違う絵が出てくる
カンバセーションモードの最大のハマりポイントがこれです。「シンプルな白背景で商品写真」と伝えたはずが、豪華な店舗ディスプレイになって返ってきた、なんて経験は誰でも一度はあります。これはAIが「より良い画像にしようとして」余分な情報を付け加えているのが原因です。
解決手順
- AIが生成したプロンプトを必ず確認する。カンバセーションモードでは、AIが実際にどんなプロンプトを作ったかが表示されるので、意図しない要素(例「luxurious store display」など)が入っていないか確認する。
- 確認したプロンプトの中で不要な部分を次のターンで否定する。「今の画像、白い背景だけにして、余計なデコレーションは全部なくして」と具体的に伝える。
- それでも改善しない場合は、カンバセーションモードをいったんオフにして、AIが作ったプロンプトをコピーし、不要な単語を直接削除してから通常モードで投入する。これが最速の解決策。
カンバセーションモードは「AIにお任せ」する機能なので、コントロールを取り戻したいときはハイブリッド運用が現実的です。最初はカンバセーションモードで方向性を掴み、細部の調整は通常プロンプトに切り替えるというワークフローが、プロの現場でも多く採用されています。
トラブル2音声入力がうまく認識されない・途中で切れる
ボイスモードは非常に便利ですが、「Realtime API disconnected」というエラーや、認識が途中で止まるという問題が報告されています。特にChromeで起きやすく、Safariの方が安定しているという声も多いです。
解決手順
- まずブラウザをSafariに切り替える。ChromeよりSafariの方がマイクのWebAPI処理が安定しているケースが多い。
- ブラウザのマイクアクセス権限設定を確認する。設定で「常に許可」になっているか確認し、「毎回確認」のままだと途中で接続が切れる原因になる。
- 長い説明を一気に話すのではなく、1文ずつ区切って話す。「まず夕暮れの海辺の女性を作って」→生成確認→「もっと暖かい光にして」という短いターンの積み重ねが最も安定する。
- それでも解消しない場合は、音声入力で出てきたプロンプトをテキストにコピーしてから、テキストのカンバセーションモードで再利用する。音声はアイデアの入力手段として使い、最終調整はテキストで行うという分担が実用的。
トラブル3会話を続けるうちに最初のイメージからどんどん遠ざかる
カンバセーションモードはコンテキストを引き継ぐ仕様ですが、会話を重ねるにつれて「当初のイメージの核」が薄れていく問題があります。「image 3をもっとポップにして」「image 2の色だけ変えて」を繰り返しているうちに、気づけば最初と全然違う画像になっていた、というのはあるあるです。
解決手順
- 会話を始める前に、絶対に変えたくない「核心要素」を最初の一言に明確に含める。たとえば「全体を通じて縦長構図・和風テイスト・落ち着いた色調は変えないで」という制約を最初に宣言しておく。
- 会話が5〜6ターン以上続いたと感じたら、新しい会話セッションを始める。コンテキストが長くなるほどAIの解釈がブレやすくなるため、気に入ったドラフト画像のプロンプトをコピーして新セッションの出発点にする方が結果的に速い。
- スタイルの一貫性を保ちたい場合は、気に入った画像をスタイルリファレンス(–sref)として登録しておく。カンバセーションモードの中でも「この画像のスタイルを参考にして」と伝えることで、視覚的なアンカーとして機能させられる。
トラブル4パーソナライゼーションが有効になっていて意図しないスタイルが乗ってしまう
V8ではパーソナライゼーションがデフォルトでオンになっているため、カンバセーションモードで生成した画像に自分の過去のレーティング傾向が反映されてしまい、クライアントワークなどで「なんかクセが強い」という問題が起きることがあります。
解決手順
- サイドバーのパーソナライゼーション設定を開き、一時的にオフにする。これだけでMidjourneyのデフォルト美学に戻る。
- あるいはカンバセーションモード内で「パーソナライゼーションなしで、プレーンなスタイルで生成して」と明示する。
- 特定のスタイルに固定したい場合は、–rawパラメーターを使うよう指示するか、スタイルリファレンスで別のスタイルを強制的に上書きする。V8では–rawを最初に宣言しておくとAIの過剰な美化が抑えられ、よりコントロールしやすくなる。
カンバセーションモードをもっと賢く使うための上級テクニック
基本的なトラブル解決ができたら、次のステップとして知っておきたい上級テクニックを紹介します。これを知っているかどうかで、作業効率が大きく変わります。
「AIが書いたプロンプトを盗む」逆引き活用法
カンバセーションモードを使う隠れた利点として、プロンプトの書き方を学ぶ教材になるという点があります。会話モードで生成すると、AIがどんなプロンプトを作ったかが表示されます。これを丁寧に読むと、「シネマティックな光」を英語でどう表現するか、「古い日本の商店街」がどう変換されるかなど、Midjourneyが好む語彙と構造が自然に身につきます。
具体的には、気に入った画像が出たときのプロンプトをメモ帳にストックしておくことをおすすめします。20〜30個も溜まってくると、自分なりの「効くプロンプトのパターン」が見えてきます。ある程度溜まったら、カンバセーションモードを卒業して通常モードに移行する準備が整っている証拠です。
グリッドモードとカンバセーションモードの最強コンビ運用
V8で追加されたグリッドモードとカンバセーションモードを組み合わせると、アイデア出しから最終選定までのフローが驚くほどスムーズになります。グリッドモードでは大量の画像を一覧表示できるので、カンバセーションモードで「もっと暗くして」「image 2と3を混ぜたような感じで」と指示しながら、横並びで変化を比較できます。
特にブランドのトーン&マナーを決める初期段階や、複数のバリエーションを依頼された案件で効果を発揮します。一人のディレクターとデザイナーの打ち合わせが、一人でできてしまうイメージです。
他言語ユーザーが知っておくべき日本語入力のコツ
カンバセーションモードは複数言語対応とはいえ、日本語入力にはいくつかの癖があります。うまく使うためのコツを整理しておきます。
まず、擬音語・擬態語はそのまま使わない方が無難です。「ふわふわした雰囲気で」はAIに正確に伝わりにくいです。代わりに「柔らかい光と淡い色調で、軽くて穏やかな雰囲気」のように具体的な視覚的要素に言い換えましょう。次に、「和風」「日本らしい」という表現は海外ユーザーが使う「Japanese style」より意図がブレやすいため、「畳、障子、縁側、桜」など具体的な要素を挙げた方が精度が上がります。また、V8は長めの詳細なプロンプトが得意なので、日本語で話すときも短く端的にではなく、少し冗長なくらい丁寧に描写する方がイメージ通りの結果になりやすいです。
V8アルファの現在地とこれからのロードマップ
2026年3月29日現在、V8はまだアルファ段階です。「今すぐ全部乗り換えるべきか?」という疑問に、正直に答えておきます。
現時点のV8の課題として、デフォルトの美学設定がまだ調整中であるため、何も考えずに使うと「いかにもAIっぽい過剰に美しい」仕上がりになりやすいです。Midjourneyの公式アナウンスでも「–rawをすぐに使うか、ムードボードやsrefでスタイルをコントロールするのを強く勧める」と明言しています。写真風や自然な仕上がりを求めるなら、V8では最初から–rawを宣言することが実質的なデフォルトだと考えておくべきです。
一方、アルファ版ながらすでに本番運用に使えるレベルで優れているのがテキストレンダリングと複雑な構図の再現性です。バナー広告や店頭POP、ポスターなど文字を含む商業素材の制作では、V7よりも圧倒的にV8が向いています。
今後のロードマップとして、V8安定後に優先開発されるのは編集モデル(Editing model)とV2ビデオモデルだとされています。編集モデルが実装されれば、カンバセーションモードで生成した画像の一部だけを指定して修正できるようになり、「顔だけ変えて」「背景だけ差し替えて」という指示が自然な会話の中で完結します。これが実現すれば、カンバセーションモードの実用性はさらに一段階上がるでしょう。
ぶっちゃけこうした方がいい!
正直に言います。カンバセーションモードを「すごい機能だから使わなきゃ」と義務感で使おうとすると、意外と疲れます。なぜかというと、プロンプトを書かなくていい代わりに「AIとの対話をうまく進める」という別のスキルが必要になるからです。これはこれで習得コストがゼロではありません。
個人的にぶっちゃけると、カンバセーションモードはアイデアの最初の10分に集中投下するのが一番楽で効率的です。「何を作りたいかすら固まっていない」という状態のときだけ使う、という割り切りです。まず5〜6ターン会話して画像の方向性をドラフトで確認したら、そこからはカンバセーションモードをオフにして、AIが生成したプロンプトを素材として手動でチューニングする。このハイブリッドが最速です。
全部をカンバセーションモードでやろうとすると、AIの解釈がブレるたびに「違う、そうじゃない」と指摘し直すやり取りが増えて、かえって時間がかかります。プロンプトをゼロから書くより遅くなることすらあります。一方、通常モードに切り替えてプロンプトを直接編集する段階になると、「カンバセーションモードが作ったプロンプトを参考にして自分で書いた方が速い」という感覚が出てくるはずです。
もう一つ言うと、V8の今の時期はパーソナライゼーションを育てることに最も時間を使うべきです。これはカンバセーションモードの使い勝手にも直結します。パーソナライゼーションが自分の美的センスを正確に学習していると、カンバセーションモードでの最初の一言が大雑把でも、AIが「この人はこういう仕上がりが好きなはず」という補正をかけてくれるので、ズレが格段に少なくなります。公式も「–stylize 1000でパーソナライゼーションをガンガン効かせてほしい」と言っているほどです。
要するに、カンバセーションモードをうまく使うための本質は「機能を使いこなすこと」ではなく「自分の好みをMidjourneyにちゃんと教え込むこと」です。これさえできれば、会話が一言でも驚くほど的確な画像が返ってくる体験ができます。まずパーソナライゼーションのレーティングを200枚以上こなすこと——これが、カンバセーションモードを本当に楽に使うための、地味だけど最も効く近道です。
カンバセーションモードに関するよくある疑問を解決!
日本語で話しかけても正確に認識してくれるの?
公式ドキュメントでは「複数の言語に対応している」と明記されています。実際に日本語で指示を出してAIがプロンプトを生成した事例も多く報告されており、日常的な日本語の説明であれば十分に機能します。ただし、独特のニュアンスや比喩表現は英語より意図が伝わりにくいこともあるため、シンプルな文章で具体的に伝えるほうが結果は安定します。また、画像を指定するときは「image 1」「image 3」のように番号で呼ぶと確実に伝わります。
カンバセーションモードはGPUコストがかかるの?
カンバセーションモード自体に追加のGPUコストはありません。ただし、ドラフトモードとの組み合わせではGPUコストが通常の半分、音声入力はドラフトモードが必須なので同様に半分のコストで使えます。一方、V8の–hdモードや–q 4モードはそれぞれ通常の4倍のGPUコストがかかるため、最高品質の仕上げ段階で使うよう心がけましょう。なお、スタンダード以上のプランであればV8アルファでリラックスモードも使えるので、コストを抑えながらカジュアルに試したい場合はリラックスモードで会話を楽しむのがベストです。
ドラフトモードで生成した画像は最終納品に使えないの?
ドラフト画像はあくまでコンセプト確認用なので、そのままの解像度では商用利用や高品質な印刷には向きません。気に入ったドラフト画像を見つけたら必ず「Enhance」ボタンで標準品質に仕上げ直し、さらに高解像度が必要な場合はV8の–hdパラメーターを活用して2Kネイティブ解像度で出力しましょう。後からアップスケールで2Kにすることはできないため、最初のプロンプト段階で–hdを付けておくことが重要です。
V7のパーソナライゼーションプロファイルはV8でも使えるの?
完全に後方互換性があります。V7で作成したパーソナライゼーションプロファイル、ムードボード、スタイルリファレンス(sref)はすべてV8アルファでもそのまま利用可能です。ただし、V8のパーソナライゼーションをフルに活用するには、V8専用のプロファイルをレーティングセッションで新たに作成するか、既存のV7プロファイルをアンロックする手続きが必要です。手順は簡単で、評価インターフェースでいくつかの画像をレーティングするだけなので数分で完了します。
まとめ
MidjourneyのカンバセーションモードはAI画像生成の「言語の壁」を根本から壊した機能です。プロンプトの書き方を覚えなくても、日本語で話しかけるだけでAIが最適な表現に変換し、画像を生成してくれます。ドラフトモードとの組み合わせで生成速度は最大10倍になり、アイデアを出し続けながら直感的にビジュアルを育てていける体験は、従来のAI画像生成とはまったく別物の感覚です。
そして2026年3月17日にリリースされたV8アルファでは、会話フローの自然さがさらに磨かれ、生成速度はV7比5倍、テキストレンダリングの精度も飛躍的に向上しました。まだ試していない方は、まずalpha.midjourney.comでカンバセーションモードをオンにして、気軽に話しかけてみてください。うまいプロンプトを考えることに使っていたエネルギーを、純粋に「何を作りたいか」という想像力に全振りできる体験が待っています。


コメント