Недавно в статье мы тестировали нейросети, которые генерируют тексты, а сейчас решили испытать сервисы по созданию изображений. Посмотрим, сможет ли искусственный интеллект заменить работу иллюстратора или хотя бы заезженные стоковые картинки.
Генерируем обложку и иллюстрацию для статьи на тему «Как современные технологии меняют нашу жизнь» (за идею спасибо Yandex GPT). Каждый из промтов тестируем в трех разных стилях: реализм, аниме и киберпанк.
Сравниваем иллюстрации от нейросетей Midjourney, Stable Diffusion, Kandinsky, Шедеврум и Bing. Оцениваем, как они справились, по четырем параметрам:
- задача — нарисовала ли нейросеть всё, о чем мы просили;
- ошибки — нет ли каких-нибудь странностей типа лишней пары рук или глаз;
- стили — как одна и та же картинка получилась в разной стилистике;
- дополнительные фичи — возможности, которые отличают от других нейросетей.
Промт для обложки: «Вид на мегаполис будущего с небоскребами и скоростными автомобилями».
Промт для иллюстрации: «Человек за офисным столом пользуется современными гаджетами».
Midjourney
Midjourney — нейросеть для иллюстраций, которая прославилась своими фотореалистичным изображениям. Она доступна только на платформе Discord. Ставить задачи в Midjourney можно при помощи команд на английском, русский язык пока не понимает.
Задача — 1 ⭐️. Midjourney нарисовала всё, о чем мы попросили: мегаполис, небоскребы, автомобили. Человек за офисным столом получился неплохо: в руках у него что-то вроде очень маленького телефона, ноутбук, несколько небольших гаджетов из мира будущего.
Ошибки — 0,5 ⭐️. На картинке с мегаполисом странные сущности плавают в воде. Машина едет посередине разделительной полосы, а слева от нее по набережной проносится катер. Возможно, будущее именно так и выглядит. Мужчина с гаджетами — единственный из четырех исходных вариантов от Midjourney, у кого руки выглядят нормально. Правда, пальцев всё равно меньше, чем нужно.
Стили — 1 ⭐️. Со стилями Midjorney справилась хорошо: реализм и киберпанк вышли вполне узнаваемыми. Но вот вместо аниме-мегаполиса получился город будущего где-то в Азии.
Дополнительные фичи — 1 ⭐️. В Midjourney разные параметры задают при помощи коротких команд: например, уровни стилизации, качества и «хаоса». Можно выбрать одну из пяти версий нейросети, если хочется сравнить, насколько выросло качество иллюстраций. На один запрос выдает четыре картинки, из которых выбрали одну самую удачную, на наш взгляд. После этого можно попросить Midjourney улучшить разрешение одной из них и добавить деталей или сгенерировать еще четыре варианта этого изображения.
Итоговая оценка: ⭐️ 3,5/5. Midjourney показала классный результат — картинки получились яркие и красочные, хорошо передан стиль. Не обошлось и без дурацких багов вроде мужчины с тремя руками или аниме-парня, который печатает на клавиатуре, а вместо монитора у него книга.
Stable Diffusion на сайте ClipDrop
Stable Diffusion — нейросеть с открытым кодом, который можно скачать на компьютер. Однако чтобы ей пользоваться, нужно разбираться в программировании и запускать ее на мощном «железе». При этом она дает почти безграничные возможности: можно создавать визуальные проекты с покадровой анимацией, заменять объекты и дорисовывать картинки.
Обычные пользователи могут попробовать Stable Diffusion через сайты и приложения, но с более «бедными» возможностями и качеством генерации. Мы тестировали нейросеть на сайте ClipDrop.
Задача — 0,5 ⭐️. Stable Diffusion с задачей справился — все элементы на месте: мегаполис, небоскребы, авто. Картинки у него получились в своем особом стиле: всё в монохромных тонах. Современные гаджеты выглядят не очень футуристично: на столах парочка мониторов и еще какие-то странные предметы, один из которых похож на чернильницу (?!).
Ошибки — 0,5 ⭐️. Stable Diffusion исказил пропорции машин. Автомобиль в центре и те, что слева от него, получились разного размера. А у мужчины за столом куда-то пропала половина спинки стула.
Стили — 1 ⭐️. На сайте ClipDrop в параметрах можно выбрать один из готовых стилей. Мы попробовали фотографический стиль, аниме и неоновый панк. Особенности каждого из них получилось передать неплохо: стили легко узнать по иллюстрации.
Итоговая оценка: ⭐️ 3/5. Stable Diffusion от ClipDrop нарисовал неплохие иллюстрации. Они выглядят чуть хуже, чем у Midjourney, и нужно перепробовать несколько вариантов, пока выберешь нормальные изображения людей. Зато их можно генерировать бесплатно и без проблем с регистрацией. Stable Diffusion, как и Midjourney, понимает запросы только на английском.
Kandinsky
Kandinsky — нейронка от разработчиков Сбербанка. Ей можно пользоваться как через официальный бот в Телеграме, так и в браузере, ничего скачивать не придется. Kandinsky генерирует иллюстрации, умеет дорисовывать картинки и смешивать несколько изображений в одно.
Задача — 0,5 ⭐️. Задачу Kandinsky выполнил не на 100 процентов. Мегаполис будущего и небоскребы на обложке вышли нормально, но при этом машины получились очень мелкими, зато появились скоростные поезда. На иллюстрации из современных гаджетов только ноутбук.
Ошибки — 0,5 ⭐️. Странные пропорции и проблемы с пальцами рук — классические косяки всех нейросеток. На дорогах мегаполиса вместо машин изображены непонятные предметы, которые едут в никуда: в конце тупик. Трехпалый мужчина с большой головой печатает что-то на ноутбуке неправильной формы — к сожалению, людей Kandinsky рисует плохо.
Стили — 1 ⭐️. В Kandinsky стили можно выбирать в параметрах запроса. Из готовых вариантов мы протестировали детальное фото вместо реализма, аниме и киберпанк. С первым из стилей получилось неплохо — придраться не к чему. Аниме-мегаполис получился как из мультфильма Миядзаки, правда, машина из другой оперы. Киберпанковский город выглядит слишком мультяшным, как будто его срисовали с Нью-Йорка из старых «Черепашек-ниндзя».
Дополнительные фичи — 0,5 ⭐️. В Kandinsky много встроенных стилей, можно даже попросить нарисовать как художник: Айвазовский, Малевич, Пикассо. Есть инструменты, чтобы редактировать фото: «Вставить изображение», «Ластик», «Перемещение». Можно выбрать размер иллюстрации, но эта функция довольно бесполезная, она просто кадрирует квадратную картинку. Kandinsky на один запрос генерирует только одно изображение, тогда как другие дают выбор из четырех. У нейросети есть свои правила, не каждое изображение получится создать: например, «тюрьма» для нее — стоп-слово.
Итоговая оценка: ⭐️ 2,5/5. Kandinsky генерирует неплохие абстрактные картинки, но изображения людей никуда не годятся — выходят странные непропорциональные уродцы с тремя или шестью пальцами на руке. Неудобно, что нет выбора: на один запрос — всего одна иллюстрация. Из плюсов: в нем не надо регистрироваться — можно пользоваться на сайте или через телеграм-бот. Сервис принадлежит российской компании, поэтому он хорошо работает на русском языке.
Шедеврум
Нейросеть от Яндекса, которая работает только в приложении «Шедеврум». Чтобы скачать сгенерированное изображение, надо сначала опубликовать его в приложении, тогда его увидят и другие пользователи. В отличие от Midjourney и Stable Diffusion, Шедеврум хорошо понимает запросы на русском языке. Еще у этой нейросети есть особые правила использования: нельзя генерировать изображения известных людей — например, нарисовать Киркорова в стиле «Игры престолов» не получится (а жаль!).
Задача — 0,5 ⭐️. Нейросеть задачу выполнила, но не идеально. Автомобилей на обложке почти не видно, вместо них на переднем плане что-то среднее между скоростным поездом и катером, поэтому что сложно разобрать, что под ним — дорога или река. А человек за офисным столом скорее похож на астронавта на космическом корабле.
Ошибки — 0,5 ⭐️. На картинке с мегаполисом изображены небоскребы со странными пропорциями. У офисного работника очень длинные кисти рук, а ноги проваливаются куда-то в стул.
Стили — 0,5 ⭐️. Картинки для обложки в стиле реализма и аниме не сильно отличаются друг от друга. Нарисовать киберпанк тоже не получилось: внезапно появилась анимешная девушка.
Дополнительные фичи — 0 ⭐️. По этому пункту Шедеврум проигрывает: тонких настроек в нем нет, только поле для запроса. Зато это единственная нейросеть, которая на промт «человек за офисным столом» выдавала нам картинки не только с мужчинами, но и с женщинами.
Итоговая оценка: ⭐️ 1,5/5. Шедеврум пока не подходит для полноценной работы, генерирует картинки низкого качества. Зато ими можно делиться в соцсетях, а еще оценивать и комментировать чужие иллюстрации в приложении. Чтобы пользоваться Шедеврумом, нужен только аккаунт в Яндексе.
Bing
Bing — сервис по генерации изображений от Microsoft. Он работает на основе нейросети DALL-E от OpenAI. Разработчики ограничивают доступ пользователей из России, поэтому, чтобы попробовать Bing, нужно установить VPN и зарегистрироваться в Microsoft.
Задача — 1 ⭐️. С задачей Bing справился. Для обложки нарисовал мегаполис с небоскребами и автомобилями — даже получилось изобразить их в движении. А для промта «человек с гаджетами» выбрал более крупный план, чем у других нейросетей: вместо офисного работника мы видим только кусок стола и кисти рук. Зато Bing добавил отражение пальцев в планшете.
Ошибки — 0,5 ⭐️. Bing страдает стандартной болезнью нейросетей — с пальцами опять проблемы. Они получились неестественно длинными, кое-где добавились лишние фаланги, а ногти и лак на них живут своей жизнью.
Стили — 0,5 ⭐️. Настроек стилей в Bing нет, но их можно задавать в промте. Разные варианты обложек получились неплохо, а вот с человеком за офисным столом вышел провал. Вместо аниме нейросеть изобразила юношу-азиата, а киберпанк внезапно смешался со стимпанком — современные гаджеты заменили странные механические устройства.
Дополнительные фичи — 0 ⭐️. Тонких настроек в Bing нет, генерирует четыре картинки на выбор, как и большинство нейросетей.
Итоговая оценка: ⭐️ 2/5. Bing выдает картинки среднего качества. До реалистичных ярких иллюстраций ему еще далеко, а со стилями он работает пока хуже всех. Пользоваться им можно бесплатно, но только через VPN.
Результаты
В отличие от текстовых нейросетей, с задачей иллюстратора искусственный интеллект справился лучше. Несложные картинки с несколькими элементами он изображает неплохо, придерживается выбранного стиля. Но реализация и детализация иногда подводят: с изображением людей пока проблемы. Лучше выбирать какие-то абстрактные сюжеты, а не пытаться добиться от нейросети нужного количества пальцев на руках.
Если вы дружите с английским и готовы потратиться на платную подписку, а перед этим найти способ подключить ее через иностранную карту, выбирайте Midjourney. Она рисует самые реалистичные и детализированные иллюстрации.
Когда нужна нейросеть, которая быстро генерирует картинки с телефона и хорошо понимает по-русски, установите телеграм-бота Kandinsky или скачайте приложение «Шедеврум».
Stable Diffusion через сайты не выдает потрясающих результатов, но, если есть навыки программирования, можно попробовать запустить открытый код на своем компьютере для более тонких настроек.