はじめに
ミッドジャーニーのプロンプト(呪文)の使い方について解説します。画像生成AIの最高峰Midjourneyの必要な情報を押さえ、より正確な画像生成を実現しましょう。Midjourneyのpromptで悩んだらこちらをご覧ください。
prompt(プロンプト)とは?
プロンプトは、Midjourneyが画像を生成するために解釈する短いテキストフレーズです。Midjourneyは、プロンプト内の単語やフレーズを、トークンと呼ばれる小さな部分に分解します。これらのトークンは、訓練データと比較され、画像を生成するために使用されます。うまく作られたプロンプトは、ユニークでエキサイティングな画像を作成するのに役立ちます。
Midjourneyの使い方
promptの書き方
Midjourneyのルーム①に入って、で上記②のように「/im」と入力すると「/imagine prompt:」と出てきますのでクリックしてください。そうすると②の部分に「/imagine prompt:」の文字が入ります。
③「/imagine prompt:」の後に必要なプロンプトを入力して「Enter」を押すと画像生成が開始されます(書き込んでも良いしコピペで入れてもOK)。
1分弱で下記のような4枚の画像が生成されます。左上1、右上2、左下3、右下4の順番に並んでいます。
U1からU4は、生成された画像の1から4のうち、気に入ったものがあった場合、1枚の画像として生成する場合に押すボタンです。
更新マークみたいなボタンは再度同じpromptもしくはpromptを追加して作り直したい場合に押すボタン。
V1からV4は、1から4のうちどれかをベースにしたものを生成するためのボタンです。このV1からV4を押すとその画像によく似た画像が4枚生成されます。
タイムラインはどんどん進んでいくので、自分の生成した画像を確認する場合は、上記④の受信ボックスをクリックしてメンションを押すと自分の生成したものを確認しやすいです。
基本的なprompt
基本的なprompt(プロンプト)は、単語、フレーズ、または絵文字1つだけで簡単に作成できます。
(prompt例)peaceful world
少しのフレーズでもこれだけ素敵な画像ができます。
高度なprompt
(prompt例)https://s.mj.run/KGLjdulUUwI, peaceful world, –ar 3:2 –no sea
より高度なプロンプトには、1つまたは複数の画像URL、複数のテキストフレーズ、および1つまたは複数のパラメーターが含まれることがあります。
【Image Prompts】今回は画像URLに「https://s.mj.run/KGLjdulUUwI」
【Text Prompts】テキストフレーズは同じ「peaceful world」
【Parameters】パラメーターには「–ar 3:2 –no sea」の2つを加えて作成しました。
基本的なものと比べると、URLの画像をベースに作成されていることがわかると思います。パラメーターの「–ar 3:2」は生成する画像の比率、「–no sea」はネガティブプロンプトと言って画像に反映したくないものを「–no」の後に加えてあげることでより生成する画像のクオリティをあげることができます。
今回は画像のURLを入れましたが、所有している画像を使ったり、フレーズだけを組み合わせても画像生成は可能です。
プロンプトの書き方(例)
(Personify Midjourney of AI tools), beautiful witch, summoning magic, fantasy, –ar 16:9 –no extra fingers, extra digit, fewer digits, malformed hands, bad hands
・文章の場合、文字と文字の間に半角スペースを開ける
・単語の間はカンマか半角スペースで区切る(カンマと半角スペースで区切ると綺麗に見える)
・パラメーター間はカンマ不要。但しパラメーター内の単語間はカンマと半角スペースで区切る
上手なpromptを作成するコツ
promptの長さに関して
promptは長々とした文章ではなく、シンプルな書き方で大丈夫です。単語を組み合わせることで異なる画像が生成されます。ただ、非常に短い上記のようなpromptでは、Midjourneyのスタイルに大きく依存するので、さまざまな単語を組み合わせてpromptは作成したほうが良いです。また、同義語でも生成される画像の雰囲気は異なります。
例:虹を「美しい」「かわいい」「素敵な」を加えて生成した画像を比べてみました
「beautiful rainbow」はより実写に近い画像になり、「cute rainbow」はマスコットが勝手に加わり、「lovely rainbow」は実写とイラストの中間みたいな雰囲気に仕上がりました。同じような単語でも仕上がりが変わってきますので、実践しながら自分が生成したいイメージに合う単語を入れていきましょう。
また、単語が少ないほど、それぞれの単語の影響力が強くなります。Midjourneyは、大文字・小文字を区別しないので気にしなくて大丈夫です。
欲しい単語を入れる・否定文は不要
画像に必要な単語を入れていきますが、否定文は不要です。例えば「象がいない動物園」とpromptに入れると、下記画像のように象が大体含まれます。
含めたくない場合は、ネガティブプロンプトとして追加します。ネガティブプロンプトは「–no 任意の単語」として入力します。
イメージできてるなら単語として入れる
入っていない単語はランダム化され生成されます。欲しい画像がイメージできてるなら、単語として入力することが仕上がりに大きく影響します。下記は画像のイメージが具体的にある場合、入れたほうが良い項目になります。
【主題 】人物やキャラクター、その場所など
【媒体 】写真、イラスト、絵画、アニメなど
【環境 】部屋、屋外、水上、海中など
【照明 】スポットライト、柔らかい光、自然な光、曇りなど
【色 】モノクロ、カラフル、白黒、鮮やかなど
【雰囲気】恐ろしい、緊張した、静かな、温かいなど
【構図 】全身、バストアップ、ポートレート、クローズアップ、鳥瞰図など
名詞に数を加える
数を指定することは重要です。「女性」より「二人の女性」、「魚群」などの集合名詞も機能します
【使い分け】よく使うMidjourneyのprompt
【女性】girl, woman, lady
女性の画像を作成する際に使う「girl」「woman」「lady,」の違いについては、幼さを加えるなら「girl」、大人の女性であれば「woman」「lady」が良いです。また、写真系のpromptを加えないと絵画に近い画像ができることが多いです。
【写真】photo, photograph, snapshot, commercial photograph, gopro, documentary footage, documentary video
画像を写真っぽく生成する時に使うprompt。「photo」「photograph」の違いは大きくはないですが「photograph」の方が独自の世界観を感じる仕上がりになります。「snapshot」は構成ワードが少ないとカメラを持った写真になりますがワードが多い場合、カメラは画像内に出てこなくなります。「commercial photograph」は「photo」「photograph」に近い写真に。「GoPro」は自撮り写真や広角の写真になりやすいです。「documentary footage」「documentary video」のようにfootage(映像)とvideo(ビデオ)の違いがどのぐらい出るかを確認しましたが、「documentary footage」の方はドキュメンタリー映像、「documentary video」は映画を切り取った感じに仕上がります。
【構図】Full body shot, Full body, bust up, portrait, close-up, bird’s eye view
全身の写真が欲しい場合は「Full body shot」「Full body」と入れると良いが「Full body shot」の方が全身写真として生成されやすい。目元や口元などをアップで見せたい場合は「close-up」。「portrait」は写真として生成されやすい。胸より上の写真を生成するなら「bust up」。上方向から見下ろす感じの写真は「birds eye view」と入れると良いです。
知っておきたいパラメーター
ほぼ必須で使うことになるパラメーターなので、下記2つだけは覚えておいて損はなし!
–ar ハイフン2つ+ar
生成画像の比率を決めるパラメーターです。指定しない場合、正方形で生成されます。
横長の16:9で作りたい場合は「–ar 16:9」、縦長の2:3で作りたい場合は「–ar 2:3」と設定してください。
–no ハイフン2つ+no
「ネガティブプロンプト」を設定する際にこのパラメーターが必要です。
「—no extra fingers, extra digit」のようにnoの後にネガティブプロンプトを入れて使います。ネガティブプロンプトについては下記で詳しく説明します。
ネガティブプロンプトを使いこなそう
ネガティブプロンプトとは?
ネガティブプロンプトとは、画像生成の際に、画像に含めたくない要素を指定するための文書です。これは、通常のプロンプトとは反対の役割を果たします。通常のプロンプトは、生成する画像に描かれることを望むものを指示するために使用されます。一方、ネガティブプロンプトは、生成される画像に表示されてほしくないものを明示的に指定するために使われます。
簡単に例えると、通常のプロンプトは「画像に描かれてほしいもの」を指示し、ネガティブプロンプトは「画像に描かれてほしくないもの」を指定します。これにより、ユーザーは画像生成時に、より詳細な制御が可能になり、望まない要素が含まれない画像が得られることが期待されます。
ネガティブプロンプトの効果
わかりやすく説明するために先ほどの「A girl, snapshot」にネガティブプロンプトを加えて再生成してみることにします。まず下記は先ほどの「A girl, snapshot」で生成した写真です。
これにネガティブプロンプト「–no」を加え、カメラを表示させないようにします。その場合、「–no camera」とプロンプトに追加して生成するだけです。ネガティブプロンプトを加えて生成した画像がこちら↓
ご覧のように、画像の中にカメラが全く入っていないことがわかると思います。これがネガティブプロンプトの効果です。
ネガティブプロンプトの使い
ネガティブプロンプトは主に「画像に入れたくないものを指定する」のと「おかしな表現・アウトな表現を食い止める」場合に使います。特に画像生成AIで作られた画像には「おかしな表現・アウトな表現」がよくみられます。例えばこの画像を見てください。先ほどの「A girl, snapshot」というpromptで生成した画像ですが、よく見ると、指が多いですよね。
画像生成AIは、指や腕の表現がまだ完全ではないので、特に手が映るような構図で生成する場合は、指や手に関するネガティブプロンプトを最初から入れて生成するのがおすすめ。
下記は「—no extra fingers, extra digit, fewer digits, malformed hands, bad hands」と再生成する際に追加で入れて生成した画像です。こちらもよく見ると「リロード」して再生成したものは指が綺麗に表示されていますが、バリエーションとして再生成したものは指がおかしなままですね。指や手がおかしいものはバリエーションとして再生成するのではなく、リロードして再生成した方がよさそうです。
このように体がおかしな表現で生成されている場合があるので、画像生成する際は細部まで注意してチェックする必要があります。
また、露出が高い表現や卑猥な表現をなるべく避けたい場合もネガティブプロンプトを使って、生成される画像をコントロールすることもできます。
ネガティブプロンプトは、ググればたくさん出てきますし、まとめられているサイトも数多くありますので、一度調べてみることをお勧めします。私の方でも、後日、ネガティブプロンプトをまとめたページを作成予定です。
コメント