Как пользоваться Midjourney: инструкция по генерации изображения

Midjourney — это сервис для создания изображений с помощью ИИ: фотографических, комиксообразных, в виде иллюстраций или 3D-иконок — в общем, какой промпт зададите, то и получите. В этой статье расскажем, как пользоваться Midjourney и получать от него именно то, что вы задумали.

Этот гайд — один из многих, что мы опубликовали в нашем клубе по нейросетям «Нейроцех». Если вы работаете в диджитал-маркетинге и хотите применять нейросети в своей работе — добро пожаловать к нам! Мы постоянно публикуем новые гайды и обмениваемся опытом между участниками. Подробности по ссылке →

Оглавление

Что такое prompt

Слово prompt (промпт) переводится на русский язык как «подсказка». То есть, это текстовая «подсказка», которую пользователь дает нейросети. Именно по ней Midjourney будет генерировать изображения.

В промпте указывают не только общие детали («девушка с цветами»), но и дополнительные параметры: пропорции («девушка с цветами ‑‑ar 16:9), освещение («девушка с цветами, свет яркого утреннего солнца») стиль («девушка с цветами в стиле Василия Кандинского») и другое. Чем качественнее составлен промпт, тем лучше получаются картинки.

Как формировать запросы

Следите за языком. Промпты нужно писать на английском. Для этого можно воспользоваться переводчиком: «Яндексом», «Гуглом», DeepL или другим. Например, ниже запрос на русском языке «плоская иллюстрация, медведь в шапке ушанке, играет на гармошке, на красной площади» нейросеть не поняла и сделала иллюстрацию Москвы, но без основного элемента — медведя с гармошкой. Чтобы Midjourney сгенерировал изображение строго по промпту, пишите его на английском

Не переусердствуйте. Midjourney работает по принципу «краткость — сестра таланта». Не расписывайте запрос так, как будто вы оформляете пятистраничное обращение в администрацию района.

❌ Как делать не надо: «сделай изображение кота, который сидит на стуле и грустными глазами смотрит на стол, а на столе нарисуй вазу с пирожными макарон, раскрась фантики конфет в розово-зеленый цвет и сгенерируй все это в стиле фотографии».

✅ Лучше попробовать так: «фото, кот на стуле с грустными глазами, на столе ваза с розово-зелеными пирожными макарон».

Обходитесь без отрицаний. Опишите тот образ, который вы хотите получить в конечном итоге. Если указать «пляж без людей», то, возможно, нейросеть не распознает слово «без» и добавит человека. Вместо этого напишите «пустынный пляж» или вообще не используйте слово «люди». Не используйте слова «не», «без», «кроме» и подобные.

Чтобы гарантированно избежать конкретных деталей, можно использовать расширенный параметр ‑‑no. О нем поговорим позже.

Вот что получилось по запросу «beach without people»

А это результат по промпту «deserted beach»

Будьте конкретны. Midjourney очень креативный. Он автоматически дополняет неопределенные детали. Невозможно предугадать, что он придумает по запросу «птицы на дереве». Используйте конкретные цифры и слова — например, «три снегиря на ели».

Если у вас есть определенный образ в голове — постарайтесь описать его максимально подробно, чтобы нейросеть поняла вашу задумку. Подумайте о:

объекте: старик, медведь, колдунья, гусеница;
месте: помещение, город, деревня, поле;
размере: крошечный, гигантский, высокий, короткий;
действии: сидит, танцует, бежит, держит за руку;
погоде: солнце, снег, дождь, ветер;
цвете: тусклый, яркий, черно-белый, пастельный;
освещении: закатный свет, люминесцентное освещение, неон, лунное сияние;
композиции: портрет, крупный план, вид сверху, снимок через плечо;
стиле: фотография, акварель, киберпанк, карандашный эскиз;
настроении: спокойное, динамичное, грустное, радостное.

children’s book illustration, a cow in a winter hat clumsily skating on a skating rink, children and adults skating nearby

Как начать генерацию изображений в Midjourney

Чтобы ввести первый запрос, необходимо:

Зайти в чат Midjourney Bot в «Дискорде»
Нажать на плюсик слева от поля ввода текста.
Выбрать «Использовать приложения».
Кликнуть на «/imagine».
В появившемся поле добавить описание того, что вы хотите сгенерировать.

Попробуем создать волшебника в лесу. Для этого введем запрос «a wizard in a purple cloak and a cap with stars, in the forest, on a sunny day». По умолчанию Midjourney предлагает четыре изображения. Разные части промпта можно отделять при помощи точки, запятой или двоеточия. Чаще всего это делают через запятую.

Чтобы рассмотреть варианты ближе, нажмите на картинку, а затем на кнопку «Открыть в браузере». Это называется предварительным превью. Если вы хотите выбрать отдельно какое-то из предложенных изображений, нужно сделать апскейл. Апскейл (upscale) — это процесс увеличения изображения без потери качества. В контексте Midjourney апскейл — это выбор одной из моделей масштабирования.

Для этого нажмите на кнопку U, соответствующую номеру изображения (U1, U2, U3 U4). В примере с волшебником остановимся на варианте U3. Нейросеть автоматически сгенерировала выбранную картинку в размере 1024×1024 пикселей.

Основные инструменты в Midjourney

После выбора одной из четырех картинок появляются новые кнопки с функциями. Разберем подробнее каждую из них на примере портрета — так изменения будут заметнее.

Попросим Midjourney создать портрет индийской девушки с легкой улыбкой, без дополнительных деталей. Вот что получилось:

Оригинал. Промпт: beautiful woman in Indian clothes, with a slight smile, the atmosphere of Asia, portrait, close-up view

Upscale (Subtle). Увеличивает размер изображения в два раза (до 2048×2048), оставляя максимальную приближенность к оригиналу.

Результат после опции Upscale (Subtle). Из видимых изменений: кожа стала более гладкой

Upscale (Creative). Тоже удваивает размер изображения, но добавляет в него новые детали на свое усмотрение.

И вот что получилось при Upscale (Creative). Лицо стало немного другим: изменился цвет глаз, брови, губы, освещение и наряд

Vary (Subtle). Используется, когда вариант устраивает, но хочется получить другие версии. Subtle делает незначительные, но все же заметные изменения.

В случае с портретом нейросеть оставила ракурс и композицию, но предложила другую одежду и черты лица. Разница между ними незначительная.

Четыре варианта изображения после нажатия на Vary (Subtle)

Vary (Strong). Делает то же самое, что и Vary (Subtle), но вносит более сильные изменения. Если после Subtle ракурс остался тем же, и немного изменилось лицо, то после Strong варианты достаточно сильно отошли от оригинала. Некоторые девушки даже размещены не слева-направо, а справа-налево.

Совсем другим получилось изначальное изображение при Vary (Strong)

Vary (Region). При выборе этой функции открывается режим редактирования. Выберите область, которую вы хотите изменить — либо прямоугольной формой, либо выделением от руки.

Посмотрим, что будет, если изменить глаза и губы девушки на картинке. При этом, изначальный промпт сохраняем.

Midjourney сгенерировал четыре варианта изображения и предложил изменения только выбранной области: передалал цвет глаз и форму губ. При этом, желтую радужку он сделал на свое усмотрение.

Если вы довольны изначально сгенерированным изображением, но хотите изменить конкретную область — например, добавить девушке красную помаду, используйте тот же Vary (Region), но добавьте новый промпт.

Выделяем нужную область и в текстовом запросе пишем то, что нужно изменить. В данном случае — красная помада и улыбка с зубами

Нейросеть действовала четко по промпту — у девушки появилась красная помада и улыбка с зубами

Другой пример. Оригинал — чашка кофе на фоне Лондона. Поменяем кофе на какао с маршмеллоу

Напиток поменялся, а освещение и стиль изображения сохранились

Можно менять не только предметы, но и фон. Для этого нужно также выделить область, которую нужно переделать, и вписать в промпт то, что вы хотите видеть. Попробуем изменить Лондон на Париж.

Zoom Out 1.5x. Эта функция создает эффект отъезжающей камеры. То есть, увеличивает расстояние между объектом съемки и камерой в полтора раза. Недостающие детали Midjourney дорисовывает самостоятельно, но максимально придерживаясь исходного стиля.

Zoom Out 2x. Тоже увеличивает расстояние между объектом съемки и камерой, но в два раза. Основной объект становится еще дальше.

То же самое изображение при Zoom Out 1.5x

Custom Zoom. Позволяет изменять масштаб, как и в предыдущих функциях. Но здесь придется задавать значения в ручную. При нажатии на эту кнопку перед пользователем открывается диалоговое окно. В нем нужно ввести значение для масштабирования — в пределах от 1 до 2. Если поставить другую цифру, то бот покажет окно «Ошибка» и попросит изменить значения.

В этом же окне предлагается изменить соотношение сторон через параметр ‑‑ar. По умолчанию он стоит на 1:1 — то есть, квадратная картинка. Можно оставить его таким, либо вписать другое значение.

При желании в поле запросов можно также вписать, какими именно деталями нужно заполнить новое пространство. Например, сделать на девушке оранжевое платье или изобразить дворец на фоне. Если не указать этого, то нейросеть дополнит объектами на свое усмотрение.

Возьмем изображение индийской девушки и применим Custom Zoom. Зададим следующие значения: ‑‑ar 16:9 ‑‑zoom 2. В промпте попросим сделать цветочный фон. Запрос выглядит так: «background of flowers ‑‑ar 16:9 ‑‑zoom 2».

Midjourney изменил формат изначального изображения на 16:9, увеличил расстояние между девушкой и камерой и добавил цветы на фон.

Стрелочки означают панорамирование. То есть, изменение пропорции изображения в выбранном направлении: сверху, снизу, слева, справа. При панорамировании используются только ближайшие 512 пикселей к боковой части картинки. На выбор дается четыре изображения.

Базовые параметры для создания изображений в Midjourney

Мы разобрались с тем, как создавать описание для промптов. Однако к ним можно добавлять дополнительные параметры. Один из них вы уже знаете — это изменение соотношения сторон через ‑‑ar.

Они всегда добавляются в конце промпта. Для этого нужно поставить два тире, а затем ввести необходимый параметр. Не обязательно только один — можно несколько.

Например:

Сначала описываем то, что хотим получить. Предположим, восемь золотых рыбок в аквариуме — close-up, eight goldfish, in the aquarium.
Потом выбираем размер через параметр ‑‑ar. Запрос теперь выглядит так: close-up, eight goldfish, in the aquarium ‑‑ar 3:4.
И добавляем другие параметры в любом порядке: close-up, eight goldfish, in the aquarium ‑‑ar 3:4 ‑‑s 500 ‑‑q 2.

Параметров довольно много. Поговорим разберем на примерах каждый из основных.

Aspect Ratios (‑‑ar). Отвечает за пропорции изображения — то есть, отношение ширины к высоте. По умолчанию Midjourney делает квадратную картинку 1:1. Если вы хотите изменить размер, то добавьте этот параметр через ‑‑ar и введите нужное значение.

Chaos (‑‑c). Позволяет сделать изображения в сетке более креативными. Измеряется в значении от 0 до 100. Midjourney по умолчанию использует показатель ‑‑с 0.

Есть пять типов значений ‑‑chaos: нулевой, низкий, умеренный, высокий и очень высокий. Чем выше значение параметра, тем более необычные результаты вы получите. Чтобы лучше понять принцип работы, исследуем Chaos на примере промпта: «still-life, lemons, oil painting».

Обычный запрос, ‑‑chaos по умолчанию стоит на нуле. Банальный натюрморт, где лимоны лежат на столе

Низкое значение, ‑‑chaos поставлен на 10. Результат получился более необычным: в одном случае к натюрморту добавился бокал с коктейлем, в другом — лимоны вместо стола оказались на какой-то странной поверхности вроде стены

Умеренное значение, ‑‑c 25. Теперь лимоны лежат на шелковой ткани с изящными изгибами. На последних изображениях нейросеть видимо решила поиграть с их количеством

Высокое значение, ‑‑c 50. Первый вариант стал похож не на масляную живопись, а на дизайнерскую фотографию. U3 отличается от предыдущих генерацией креативностью — лимон здесь более абстрактный

Максимально высокое значение, ‑‑c 50. Результат говорит сам за себя

Character Reference (‑‑cref URL). Позволяет использовать в качестве референса ранее созданные изображения. Это полезно в ситуациях, когда нужно сделать одного и того же персонажа, но в разных позах, костюмах и местах. Подойдет для создания комиксов и видеоигр.

Важно: тег работает только с теми картинками, которые генерировал Midjourney. Реальные фотографии не поддерживаются. А точные детали, вроде веснушек или логотипов на футболках, вряд ли будут скопированы.

Чтобы активировать этот параметр, необходимо ввести текстовый запрос, добавить ‑‑cref и ссылку на предыдущую генерацию. Рассмотрим на примере.

Попросим нейросеть сгенерировать накаченного мужчину 35-ти лет с татуировками — «a beefy 35-year-old man with tattoos». Выбираем одно из четырех предложенных изображений.

Теперь сделаем его в полный рост, в белой рубашке, черных классических брюках и туфлях. Для этого вводим следующий промпт: «man in full height, in a white shirt, black classic trousers and shoes ‑‑cref https://s.mj.run/OehltxRTozg (ссылка)». Чтобы найти ссылку, нажимаем на нужное изображение, чтобы его открыть. Правой кнопкой мыши тыкаем на «Копировать ссылку». Готово.

Несмотря на текстовый запрос, Midjourney не изобразил персонажа в полный рост и не одел его в белую рубашку. Зато лицо и фигура в точности повторяют исходную картинку.

Попробовать добиться лучших результатов можно, введя другой параметр: ‑‑cw в значении от 1 до 100. Чем больше число, тем ближе новая генерация будет соответствовать исходнику. Чем меньше, тем больше отличий.

man in full height, in a white classic shirt, black classic trousers and shoes ‑‑cref https://s.mj.run/OehltxRTozg ‑‑cw 100

man in full height, in a white classic shirt, black classic trousers and shoes ‑‑cref https://s.mj.run/OehltxRTozg ‑‑cw 8

No (‑‑no). Указывает Midjourney, чего не должно быть на изображении.

Нейросеть не воспринимает слова «не», «без», «кроме» и подобные. Вместо этого следует использовать параметр ‑‑no. Можно перечислять через запятую. Например: ‑‑no apples, pears, bananas.

Результат по запросу «savannah with a lot of animals but without elephants and giraffes». Midjourney не распознала слова «without» и нарисовала только слонов и жирафов

Результат по запросу «savannah with a lot of animals ‑‑no elephants, giraffes». Ни слонов, ни жирафов здесь не оказалось

Repeat (‑‑r). Пригодится для случаев, когда нужно получить много результатов по одному и тому же промпту. Добавив в конец запроса параметр ‑‑r, Midjourney начнет генерировать несколько изображений сразу. Это избавляет от необходимости многократно выполнять одну и ту же команду.

Параметр принимает значение от 2 до 4 для базовой подписки; от 2 до 10 — для стандартной; от 2 до 40 для продвинутой.

После промпта «a set of children’s toys ‑‑r 4» бот начал генерировать четыре запроса одновременно

Stop (‑‑stop). Предполагает завершение работы на полпути процесса. Делает изображение более размытым и менее детализированным. По умолчанию ‑‑stop равен 100. Пользователь может выбрать значение от 10 до 100.

vector graphics, mountain. По умолчанию ‑‑stop равен 100

Stylize (‑‑s). Позволяет Midjourney проявить фантазию и улучшить изображение по своему усмотрению. Выстраивается в диапазоне от 0 до 1000, по умолчанию используется 100.

Параметр Stylize не подразумевает конкретный стиль, а работает именно с добавлением, которые, по мнению нейросети, должны улучшить результат. Чем выше ‑‑s, тем дальше Midjourney отходит от изначального запроса. То есть, низкое значение будет точно соответствовать вашему промпту, но станет менее художественным. Высокое, наоборот, получится более креативным, однако может немного отойти от изначальной подсказки.

Рассмотрим принцип работы этого параметра на примере гонок единорогов на облаках и радугах — «Unicorns race on rainbows and clouds».

Здесь ‑‑s равен 0. Значит, генерация максимально приближена к промпту. Выглядит упрощенно

‑‑s 50 — меньше того, что установлен по умолчанию. Эта картинка креативнее предыдущей, но все равно близка к изначальному запросу

Параметр по умолчанию, ‑‑s 100. Появилось солнце и больше ярких цветов

‑‑s 250. Цвета стали менее яркими. Появилось больше облаков и меньше радуги — нейросеть начала понемногу отходить от промпта

‑‑s 500. Появилась игра цвета: закатный свет вместе с радугой и голубым небом. Вместо изначальной гонки на облаках единороги начали бежать по волнам, которые визуально напоминают облака. Здесь Midjourney существенно отошел от идеи в подсказке

‑‑s 750. Здесь через облака виднеются храмы и другие здания, о которых не было сказано ни слова в промпте

Style Reference (‑‑sref URL). Пригодится для создания работы на основе уже имеющегося изображения — одного или нескольких.

Сначала нужно загрузить тот файл, который вы хотите использовать. Для этого нажимаем на плюсик слева от поля для ввода текста, затем — на кнопку «Отправить файл», в конце — enter.

После этого нужная фотография отобразится в диалоге. Нужно нажать на нее и потом — «Открыть в браузере». В браузере копируем ссылку в командной строке сверху. Возвращаемся в Discord.

В качестве примера возьмем картину Винсента ван Гога «Цветущие ветки миндаля». И сделаем минималистичный промпт «coffee shop», чтобы посмотреть, что придумает Midjourney.

Нажимаем на «Использовать приложения», ищем /imagine и вводим запрос. В данном случае: «coffee shop ‑‑sref URL ‑‑ar 16:9».

Результат — кафе с интерьером в интерьере картины. В последнем варианте — картина в стиле ван Гога

Теперь возьмем за основу фотографию с депрессивными панельками и посмотрим, что сделает Midjourney по запросу «city made of lego ‑‑sref URL ‑‑ar 16:9 ‑‑v 6.0».

Важно: с этим параметром Midjourney не будет полностью повторять загруженное изображение — он повторяет только стиль. И не всегда со стопроцентным сходством. Чтобы в этом убедиться, сделаем персонажей «Семейки Аддамс» в стиле Чебурашки и Крокодила Гены.

Если говорить о стилизации в более традиционном смысле, то вы можете работать в более упрощенном варианте — не указывая ссылку на готовое изображение. Для этого достаточно ввести промт и в конце описать нужный стиль или даже имя художника как референс: in the style of tim burton, of Manet’s impressionism, of the movie avatar и так далее).

В базе Midjourney содержатся все известные стили и огромное количество данных о работах художников и фотографов, поэтому, вероятнее всего, он поймет вашу задумку. Можно указывать имена сразу нескольких художников, и тогда вы получите микс стилей.

advertisement-poster, for a flower shop, red, white and black colors, in the style of a Soviet poster by Dmitry Moor «Did you volunteer» ‑‑ar 9:16 ‑‑v 6.0. Бот перенес надпись на картинку, но это не страшно — ее можно убрать через Vary (region)

То же изображение, но с использованием Vary (region). Надпись удалось убрать через дополнительный промпт «flowers»

Пример стилей для промптов:

детская книжная иллюстрация;
масляная живопись;
акварельный рисунок;
киберпанк;
пиксельный;
комикс;
векторная графика;
фольклорное искусство;
контурная техника;
глиттер и блестки;
поп-арт;
техника вышивки;
сюрреализм.

И тысячи других — все зависит от вашей фантазии.

Стиль вышивки крестиком — embroidery technique

Video (‑‑video). Используйте параметр ‑‑video для создания короткого видеоролика с генерацией изображения. Отреагируйте на выполненное задание с помощью эмодзи конверта ✉️ эмодзи, чтобы Midjourney отправил ссылку на видео в сообщения.

Weird (‑‑w). Экспериментальный параметр, который придает изображениям необычный стиль. Используется в значениях от 0 до 3000. По умолчанию стоит ‑‑w 0.

В чем разница между Weird и Chaos?

‑‑chaos определяет, насколько исходные изображения отличаются друг от друга в рамках одной сетки.
‑‑weird определяет, насколько необычным будет изображение в целом.

Niji 6 (‑‑niji 6). Используется для создания изображений в стиле аниме: как для пейзажей, так и для персонажей.

St. Petersburg, St. Isaac’s Cathedral ‑‑niji 6

A 20-year-old male cook, cooking, in a white chef’s jacket and a white chef’s hat, in the kitchen ‑‑niji 6

Команды /blend и /describe

Командой называется тот запрос, перед которым стоит /. Мы уже знаем команду /imagine. Рассмотрим другие.

/blend. Смешивает 2-5 изображений в одно. Сначала бот предлагает загрузить их в систему, затем — посмотреть концепцию каждого из них, а в конце — смешать все в одной генерации. Важно: /blend не совместим с текстовыми промптами. Он работает только с загруженными картинками.

Попробуем загрузить два изображения: Симпсонов и орнамент гжели.

Загружаем два изображения по команде /blend

Лучше всего загружать изображения с одинаковым соотношением сторон. В этой генерации мы использовали картинку 16:9 для Симпсонов и 9:16 для гжели. Поэтому в итоговом результате формат получится непонятным. Если привести все исходники к одинаковому размеру — например, 1:1, то генерация будет более качественной.

Те же самые картинки, но загруженные в формате 1:1

С точной передачей лиц в этом режиме Midjourney не справляется. Он может сделать похожего человека, но без фотографического сходства. Велика вероятность того, что он исказит черты лица или не справится с генерацией глаз.

В данном случае мы взяли картинку с девушкой на белом фоне и интерьер дворца. Нейросеть не смогла точно воспроизвести внешность, и сделала другую девушку — похожую на ту, что изображена на исходнике, но с совершенно другим лицом. При этом, интерьер дворца воспроизведен с максимальной точностью.

Сделаем то же самое, но с селфи и картинкой в стиле аниме.

Вывод: команда /blend предназначена для того, чтобы смешивать разные стили и объединять их в одной картинке. Однако с ней нейросеть не может сохранять черты лица.

/describe. Предположим, у вас есть изображение, стиль которого вы бы хотели повторить, но не знаете, какими словами его описать. В этом случае вы можете перетащить нужную картинку в окно команды /describe и нажать enter. Midjourney самостоятельно напишет четыре варианта описания к выбранному рисунку.

Нажав на кнопку «Imagine all», вы сможете увидеть все четыре варианта генераций по предложенным промптам, и выбрать из них наиболее подходящее.