Нейросеть которая генерирует изображения по текстовому запросу
Перейти к содержимому

Нейросеть которая генерирует изображения по текстовому запросу

  • автор:

8 лучших нейросетей для генерации изображений по текстовому описанию

В настоящее время разработчики продолжают совершенствовать нейросети для генерации изображений, доступные для общественного использования. Они позволяют на основе текстовых запросов, фотографий или кратких изображений создавать впечатляющие картины. Однако качество конечного результата зависит от входных данных. Алгоритмы могут применяться для формирования основы для будущего изображения и также для генерации большого количества вариантов за короткое время.

Midjourney — это одна из самых передовых технологий на сегодняшний день, позволяющая создавать картинки с помощью нейронных сетей. Для этого необходимо зарегистрироваться на сервере Discord, а затем с помощью команды «/imagine», сформулировать желаемый запрос на английском языке. Система генерирует четыре варианта изображения по заданным параметрам, а также позволяет увеличивать их разрешение или переделывать по желанию пользователя. Ограничение на бесплатный сервис составляет 25 изображений для одного пользователя, а подписка за 10 долларов в месяц позволит выполнить до 200 запросов без длительных ожиданий. Для расширенного тарифа в 30 долларов предоставляется 15 часов бесплатной работы нейросети, что позволяет создавать большое количество изображений разных стилей и уровня детализации.

Ещё одна популярная нейросеть, способная выдавать впечатляющие результаты — Stable Diffusion — позволяет настраивать точность соответствия запросу, число шагов и другие параметры. Тестирование можно осуществить через сервис Hugging Face, но придётся ждать в длинных очередях.Альтернативным вариантом является платформа DreamStudio, которая предоставляет быструю работу, но требует создания аккаунта. Дополнительно, в платформу могут авторизоваться по учётным записям Google или Discord. Затраты на генерацию в DreamStudio представлены кредитами, которые могут быть использованы для произвольного количества картинок и разрешения, однако чем больше и точнее, тем дороже выходит каждая итерация.

С помощью сервиса Craiyon вы можете легко и быстро создавать по заданному описанию высококачественные изображения без необходимости дополнительной авторизации и настройки. Нажав на кнопку Draw, вы получите до девяти готовых картинок в течение нескольких минут. Такой подход позволяет найти наиболее подходящий вариант без запутанных настроек.

В Starryai есть система нейросетей, которая генерирует изображения по текстовому описанию, а также дополнительным параметрам. Пользователь может выбрать стилистику, добавить референсную картинку, указать количество вариаций и уровень проработки. Также доступна соцсеть, где можно посмотреть и вдохновиться чужими работами, а заработать кредиты можно на выполнении заданий. Но результаты могут оказаться не такими, как ожидалось, поэтому нужно подбирать более удачные запросы. Результаты могут быть как странными абстракциями, так и работами с объёмными детализированными объектами. После этого можно пропустить изображение через нейросеть ещё раз, либо увеличить разрешение, заплатив дополнительные кредиты.

Уникальная Нейросеть Nvidia GauGAN2, обученная на миллионах фотографий природы, может генерировать реалистичные изображения по краткому описанию. Пользователи могут воспользоваться онлайн-редактором для создания картинок на основе эскизов и дополнения их текстовыми запросами. Нейросеть справляется с простыми описаниями, однако при попытке использования сложных конструкций может давать некорректные результаты.

Нейросеть которая генерирует изображения по текстовому запросу

Брейкданс Дарта Вейдера, падение астероида на Землю и животные в исторических костюмах — для искусственного интеллекта нет невозможного. Выбрали интересные проекты от Google, Сбера, NVIDIA и даже от бывшего инженера NASA, которые позволяют генерировать изображения по самым безумным описаниям — многие из них можно попробовать бесплатно.

Нейронные сети шагнули далеко вперед. Самая совершенная из них, DALL·E 2 от компании OpenAI (ее связывают с Илоном Маском), вот-вот бросит вызов творческим профессиям: иллюстраторам, фотографам и дизайнерам.

Ее суть в том, что она может создавать изображение по любому, даже самому безумному текстовому описанию. Начиная от «рестлеров в бальном платье эпохи Возрождения», заканчивая туристическими фотографиями Рыбинска. Результат получается порой впечатляющим.

Недавно бета-версия DALL·E 2 стала доступна онлайн — чтобы протестировать ее, нужно встать в лист ожидания и дождаться очереди. Если же хочется понять прямо сейчас, на что способны современные нейросети, составили подборку программ на базе ИИ, которые создают картинки по текстовому описанию. Одни из них идеально подходят для портретов, другие — для сюрреалистичного искусства и иллюстраций. Можете испытать их сами или посмотреть на картинки, которые сгенерировали мы.

Для навигации по статье:

Imagine — главный конкурент DALL·E 2

Компания Google (вернее, ее исследовательское отделение Google Brain) представила собственную нейросеть Imagine немногим позже DALL·E 2 — в мае 2022-го. Обучали ее на базе из 400 миллионов готовых пар изображений и текстовых описаний.

По словам разработчиков, Imagine работает лучше, чем детище OpenAI. Но верить приходится на слово — проект находится на экспериментальной стадии (и непонятно, когда из нее выйдет). Пока можно ознакомиться с примерами работ, либо попробовать небольшое демо на официальном сайте (нам предлагают составить запрос из нескольких готовых шаблонов).

Midjourney — самая художественная нейросеть

Проект одноименной независимой исследовательской лаборатории под руководством бывшего инженера NASA сейчас тоже на стадии бета-тестирования. Как и остальные, Midjourney относится к классу диффузионных нейронных сетей, то есть состоит как бы из двух нейросетей: одна отвечает за распознавание текста, другая — за генерацию изображений.

Инструмент быстро завоевывает популярность: с его помощью британский журнал The Economist создал обложку июньского номера 2022 года, а один из пользователей Reddit в августе перенес Гарри Поттера в мир киберпанка.

Midjourney называют более художественной нейросетью (в противовес DALL·E — более реалистичной), с ее помощью можно создавать сложные арты, удивляющие креативностью. Попробовать можно бесплатно в Discord (для этого нужно выбрать любую комнату в разделе Newcomer rooms, написать в чате /imagine и в строке promt вписать описание картинки на английском; если не поняли, вот инструкция).

ruDALL-E — российский ответ Илону Маску

Команда отечественных разработчиков (среди них сотрудники Sber AI) запустила российский аналог генератора в конце 2021-го, с тех пор нейросеть обзавелась несколькими вариациями:

ruDALL-E Kandinsky можно запустить в Discord или приложении Сбера Салют с помощью голосовой команды.

ruDALL-E Malevich доступна на сайте или в Telegram-боте Сбера.

Еще есть uDALL-E Emojich, которая генерирует смайлики по текстовому запросу — она тоже доступна на сайте или через бота.

Работает алгоритм не идеально — он ближе к уже устаревшей первой версии американской DALL·E. Однако это все еще самая сложная нейросеть в РФ. На ее тренировку ушло 24 тысяч GPU-дней — так называют произведение задействованных GPU (графических процессоров) и дней, которые ушли на обучение алгоритма (так, если вы используете 5 GPU и тренируете сеть 5 дней, потратите 25 GPU-дней).

DALL·E Mini — главный источник мемов

Еще одна программа, вдохновленная детищем OpenAI — ее создал энтузиаст из Техаса Борис Дайма для участия в конкурсе программистов. Сгенерировать картинку можно на сайте — вы получите сразу девять вариантов запроса не более, чем за две минуты. Правда, изображения в плане детальности уступают топовым проектам — нейронная сеть использует меньший набор параметров и обучена всего на 30 миллионах примеров, хотя создана на той же архитектуре, что и оригинальная DALL·E.

Не очень высокое качество отрисовки, тем не менее, не помешало проекту взорвать интернет. Довольно быстро появился форум на Reddit (сейчас там больше 100 тысяч подписчиков) и Twitter-сообщество (миллионник), где пользователи делятся самыми безумными вариантами генерации — нередко из них рождаются новые мемы (вот, например, Танос, который ищет свою маму в супермаркете Walmart, а вот Дарт Вейдер, попавший на камеру видеонаблюдения во время брейкданса).

В какой-то момент к DALL·E Mini обращались так часто, что компания Hugging Face — владелец серверов, на которых лежал проект — фиксировала по 50 тысяч генераций в сутки (команда не спала ночами, обслуживая нейросеть, пишет Wired). Популярность даже заставила разработчиков сменить название на Craiyon, чтобы алгоритм не ассоциировался с оригинальным проектом OpenAI.

Тестируем нейросети для генерации изображений

Недавно мы рассказывали о том, что активно используем нейросети при работе над цифровыми сервисами.

В новой статье мы поделимся результатами собственного сравнительного анализа нейросетей для генерации изображений. Читайте, сравнивайте характеристики и выбирайте подходящий для вас инструмент. Важно отметить, что исследование проводилось в начале апреля этого года.

Нейронная сеть — это не просто компьютерная программа. Это самообучаемая система «искусственного интеллекта», работающая по принципу человеческого мозга.

Чтобы выдать готовую картинку, нейросети прогоняют входные данные через систему «нейронов» — более простых программ, взаимодействующих между собой.

Уже сейчас для «воображения» нейросетей нет ничего невозможного. Они могут нарисовать изображение по текстовому запросу, по исходной картинке, с помощью схематичного наброска или референсов. Некоторые сервисы специализируются на генерировании лиц.

Мы протестировали работу 9 самых популярных сервисов, рисующих картинки по текстовому запросу и сделали выводы: общее впечатление основано на субъективном мнении наших экспертов.

Сервисы тестировали на двух запросах:

  • простой: «красивый кот»;
  • более сложный: «красивый мужчина-фермер с чётко прорисованным лицом собирает яблоки в корзину в яблоневом саду».

Midjourney

Это наиболее художественная сеть от независимой исследовательской лаборатории под руководством бывшего инженера NASA.

Котики от Midjourney

Midjourney относится к классу диффузионных нейронных сетей, то есть состоит как бы из двух нейросетей: одна отвечает за распознавание текста, другая — за генерацию изображений.

Инструмент быстро завоёвывает популярность, потому что удобен в использовании, позволяет создавать сложные арты, креативные иллюстрации и максимально детализированные картины.

Работает через Discord, поэтому необходима регистрация в мессенджере. Создать картинку можно в одном из общих чатов, либо добавить на свой сервер Midjourney.

Стоимость:

Некоторое время назад была доступна бесплатная демо-версия с ограниченным количеством запросов. В настоящее время есть три платных тарифа.

  • Базовый — 200 GPU-минут;
  • Стандартный — 15 GPU-часов и возможность поставить релакс режим;
  • Продвинутый —30 GPU-часов/месяц и приватный режим генерации.

Midjourney использует графические процессоры (GPU) для обработки каждого запроса. Когда вы покупаете подписку, вы покупаете время использования этих процессоров.

Время ожидания ответа нейросети: генерация четырёх вариантов изображения длится от 40 до 60 секунд.

Возможность улучшать фото: можно увеличить разрешение и генерировать аналоги по готовой иллюстрации.

Вариации стилей/разрешений: нет стилевых ограничений, хорошо распознаёт текстовые запросы при вводе в строку поиска.

Наличие библиотеки изображений: большая библиотека с собственными изображениями и работами других пользователей. В библиотеке есть возможность поиска и просмотра запросов других пользователей к изображениям.

Яблочный фермер от Midjourney

Общее впечатление: с выходом пятого обновления качество изображения людей значительно возросло: черты лица хорошо прорисованы, образы реалистичны. Фотоиллюстрации стали более проработанными, выглядят отлично, при повторении запроса меняется идея фотографии и ракурсы.

Stable Diffusion

Это программное обеспечение с открытым кодом от компании CompVis, создающее изображения по текстовым описаниям. В публичный доступ программы была выпущена в августе 2022 году, но сразу стала набирать популярность.

Котик от Stable Diffusion

Для создания картинок Stable Diffusion использует набор данных LAION-5B, который содержит 5 миллиардов изображений из интернета, включая популярные сайты, такие как Pinterest, DeviantArt и Getty Images.

Нейросеть может генерировать изображения на основе текстового запроса, дорисовывать наброски и переделывать картинки-референсы на свой лад.

Всё это бесплатно, а открытый исходный код позволяет установить Stable Diffusion на свой компьютер и использовать собственные вычислительные мощности.

Однако, сервис не учитывает физические особенности людей на изображениях, поэтому при создании текстовых подсказок необходимо учитывать это самостоятельно. В будущем, модели, вероятно, будут улучшаться, чтобы фильтровать и корректировать изображения более эффективно.

Стоимость: бесплатно.

Как начать работу: на официальном сайте, обязательная регистрация не требуется. Также есть приложения на основе Stable Diffusion.

Время ожидания ответа нейросети: генерация четырёх вариантов изображения длится более 60 секунд.

Возможность улучшать фото: нет дополнительных инструментов улучшения и обработки.

Вариации стилей/разрешений: нет стилевых ограничений, но сервис плохо разбирает текстовые запросы, а варианты разрешений ограничены (в веб-версии только 1:1).

Наличие библиотеки изображений: отсутствует.

Фермер от Stable Diffusion

Общее впечатление: откровенно плохо изображает людей и лица, а качество самих фотографий нельзя предугадать. Продукт ещё «сырой» и требует значительных доработок.

Dream Studio

Пользовательский сервис и облегчённая версия Stable Diffusion. Создан для генерации изображения по текстовому запросу или на основе референсной картинки.

Котик от Dream Studio

После регистрации появляется окно, в котором генерируется изображение. Внизу нужно ввести текстовый запрос. Слева можно выбрать размер картинки и насколько сильно она должна соответствовать запросу.

За один раз можно сгенерировать до девяти изображений. Доступна генерация не только по текстовому запросу, но и по изображению.

Стоимость: дается 25 пробных кредитов (кредит примерно равен 125 изображениям). Одна генерация дает от 1 до 10 вариантов изображений. Далее оплата идет за каждые 1000 кредитов.

Как начать работу: можно работать на сайте, а также через Discord или в Google. Для любого варианта необходима регистрация, которая сопровождается долгой верификацией с подтверждением почты.

Время ожидания ответа нейросети: максимальное количество шагов генерации изображения — 150.

Возможность улучшать фото: нет дополнительных инструментов улучшения и обработки, но можно генерировать аналоги по фотографиям.

Вариации стилей/разрешений: нет стилевых ограничений, но сервис плохо разбирает запросы, варианты разрешений ограничены (только версия 1:1).

Наличие библиотеки изображений: только библиотека своих изображений.

Фермер с яблоками от Dream Studio

Общее впечатление: нейросеть выдаёт неплохие результаты генерации, однако варианты изображений по одному и тому же запросу почти идентичны: они ни отличаются позой, мимикой, идеей изображения. Чтобы получить достойный результат, необходимо тщательно прорабатывать запрос.

Kandinsky 2.1

Это обновлённое поколение нейросети Kandinsky 2.0 для генерации картинок, которую Сбер запустил летом 2022 года.

Котик от Kandinsky 2.1

Новая модель сильно улучшена, она была обучена на 170 миллионах связок «текст-изображение», содержит 3,3 миллиарда параметров.

Основное отличие Kandinsky 2.1 от её основных конкурентов Midjourney, Stable Diffusion и DALL-E, в том, что она способна понимать более 100 языков, включая русский.

Стоимость: бесплатно.

Как начать работу: опробовать нейросеть можно на сайте, при помощи команды «Запусти художника» на «умных» устройствах Sber, в приложении «Салют», на платформах ML Space и Fusion Brain, а также в Telegram-боте.

Время ожидания ответа нейросети: генерация изображения занимают до 60 секунд.

Возможность улучшать фото: можно корректировать детали на изображении во встроенном редакторе, задавать цветовые фильтры и стиль изображения, дорисовывать загруженное изображение.

Вариации стилей/разрешений: нет стилевых ограничений, картинки генерируются в разрешении 768 × 768 пикселей, но в формате 1:1.

Наличие библиотеки изображений: отсутствует.

Фермер с яблоками от Kandinsky 2.1

Общее впечатление: качество изображений среднее, хотя встречаются интересные фотографии. Прорисовка людей в определенных стилях оставляет желать лучшего. «Кандинский» плохо прорисовывает пальцы, лица и профиль человека. Кроме того, в фотографиях по одному и тому же запросу меняется только ракурс, а идея остается исходной.

Шедеврум

Это бета-версия нейрогенератора изображений от Яндекс, которая планирует стать русским Midjourney.

Шедеврум

Прототип нейросети создаёт изображения в приложении, а не онлайн, как большинство западных аналогов. Описания нейросеть принимает как на русском, так и на английском языках.

Приложение доступно в Appstore и Playmarket, поэтому работать в нем можно на мобильных устройствах.

Стоимость: бесплатно, но из-за большого количества желающих, новый пользователь попадает в лист ожидания, где может провести от пары минут до нескольких часов. О доступе к сервису сообщают с помощью уведомления (не забудьте активировать эту опцию, чтобы его не пропустить).

Как начать работу: работает в приложении на любом смартфоне.

Время ожидания ответа нейросети: генерация изображения занимает от 60 до 120 секунд.

Возможность улучшать фото: можно задавать цветовые фильтры и стиль изображения, есть возможность дорисовывать загруженное изображение.

Вариации стилей/разрешений: нет стилевых ограничений, генерирует изображения в разрешении 256 на 256 точек, хотя современные нейросети рисуют гораздо качественнее.

Наличие библиотеки изображений: есть возможность просматривать свои опубликованные изображения и изображения других пользователей в ленте, но в случайном порядке.

Шедеврум

Общее впечатление: качество изображений среднее, хотя встречаются интересные и красивые фотографии. Работать только через приложение не очень удобно, ждём веб-версию. Сейчас программа в режиме бета-теста, поэтому использовать его для профессиональных задач ещё рано.

Dream by WOMBO

WOMBO Dream — это сервис два в одном. Во-первых, программа умеет преобразовывать текст в уникальные произведения искусства. Во-вторых, вы можете загрузить готовую фотографию и сделать из неё сюрреалистичный арт, либо использовать её как референс для генеративной картинки.

Котики от WOMBO Dream

Работает на английском языке. Для использования сервиса не нужно регистрироваться или авторизоваться, а пробная веб-версия доступна бесплатно.

С помощью этого сервиса можно легко создавать вертикальные изображения, причём его главное преимущество заключается в том, что пользователь может самостоятельно выбирать стиль изображения из более 30 вариантов и прикреплять референсы к запросу.

Стоимость: бесплатная версия позволяет генерировать одно изображение в выдаче, запрос не более 200 символов.

Как начать работу: работает на сайте, регистрация не требуется.

Время ожидания ответа нейросети: генерация изображения занимает от 20 до 40 секунд.

Возможность улучшать фото: генерация аналогов по фотографии доступна только в платной версии, а коррекция деталей на изображении находится на этапе тестирования.

Вариации стилей/разрешений: включает в себя 22 разных стиля: синтвейв, фэнтэзи, стимпанк, психоделика, японские гравюры укиё-э, студия «Гибли» Хаяо Миядзаки, Сальвадор Дали и так далее. Для более точной генерации изображения можно загрузить «исходную базу» для текста (любая картинка). Доступно одно разрешение 3:2.

Наличие библиотеки изображений: отсутствует, просмотр сгенерированной фотографии доступен только в очень неудобном маленьком варианте, но есть возможность увеличения в платной версии (не тестировалась).

Фермер с яблоками WOMBO Dream

Общее впечатление: неплохое качество фотографий, но есть сложность с реализмом. Интерфейс продукта очень неудобный, особенно в бесплатной версии. При просьбе сгенерировать красивого кота постоянно удваивал этого кота.

StarryAI

StarryAI позиционируют себя как нейросеть для генерации NFT. Приложение работает на основе трёх алгоритмов:

  • первый создаёт более фантазийные и абстрактные изображения (он называется Altair);
  • второй — более реалистичные (Orion);
  • третий — специализируется на рендеринге (Argo).

Дополнительно к тексту запроса можно добавить желаемый стиль изображения, либо загрузить готовую картинку, которую ИИ использует в качестве отправной точки, а также указать количество вариаций и уровень проработки.

Котик от StarryAI

Стоимость: в день можно создавать до пяти изображений бесплатно (как в мобильном приложении, так и на официальном сайте).

Платная подписка разбита на 3 тарифа с помесячной оплатой: Starter,Unlimited Pro, Unlimited Pro Max.

Как начать работу: нужно авторизоваться на сайте. Существует и мобильное приложение StarryAI для iOS и Android. Регистрация в приложении не требуется. В приложении тот же функционал и название кнопок, что и в веб-версии.

Время ожидания ответа нейросети: генерация изображения занимает от 60 до 120 секунд.

Возможность улучшать фото: можно улучшать фотографии и генерировать аналоги по изображениям.

Вариации стилей/разрешений: нет ограничений по стилям, можно увеличить разрешение за дополнительные кредиты. Бесплатно доступны пять вариантов разрешений, четырех из которых вертикальные.

Наличие библиотеки изображений: есть библиотека своих изображений и возможность просматривать изображения других пользователей, но нет сквозного поиска.

Фермер с яблоками от StarryAI

Общее впечатление: хорошее качество изображений, можно получить стоящие результаты, если подобрать удачные указания в запросе. Система может выдать как странную абстракцию, так и работу с объёмными детализированными объектами. Интерфейс сайта и галерея фотографий требуют доработки, так как сейчас они неудобные.

Crayon

Сервис Crayon — это бывшая нейросеть Dall-E mini по генерации изображений на основе текста на английском языке. Интерфейс удобный и прост в использовании: вставили нужные слова и просто ждете, пока программа генерирует сразу 9 иллюстраций.

Котик от Crayon

Стоимость: открытый и бесплатный сервис. Есть платные тарифы, которые дают возможность коммерческого использования фотографий и расширений инструментарий для создания изображений.

Как начать работу: сервис работает на сайте и через телеграм-бот. Регистрация не требуется.

Время ожидания ответа нейросети: генерация изображения занимает от 20 до 40 секунд.

Возможность улучшать фото: готовые фото не поддаются редактированию.

Вариации стилей/разрешений: нет ограничений по стилям, варианты разрешений ограничены (только версия 1:1).

Наличие библиотеки изображений: есть общая библиотека с изображениями со сквозным поиском и возможность просмотра запросов других пользователей.

Фермер с яблоками от Crayon

Общее впечатление: нейросеть требует существенных доработок, потому что сейчас даже качество изображений низкое, не говоря уже о стилях и прорисовках.

Deep Dream

Проект от разработчика Александра Мордвинцева появился ещё в 2015 году.

Deep Dream содержит в себе три инструмента:

Котик от Deep Dream

  • создание картинки с нуля по описанию;
  • стилизация загруженного изображения под референс из каталога;
  • обработка загруженной картинки.

Стоимость: бесплатно доступно 100 единиц энергии. Есть три платных тарифа. Чем выше тариф, тем больше выдаётся энергии и скорости её восстановления.

Как начать работу: попробовать можно на официальном сайте, необходима регистрация.

Время ожидания ответа нейросети: генерация четырёх вариантов изображения длится от 40 до 60 секунд

Возможность улучшать фото: можно увеличить разрешение и генерировать аналоги по готовой иллюстрации.

Вариации стилей/разрешений: понимает стили при запросе, а варианты разрешений ограничены (доступно 3 варианта).

Наличие библиотеки изображений: есть библиотека с собственными изображениями и работами других пользователей, но без поиска по запросу.

Фермер с яблоками от Deep Dream

Общее впечатление: достойный конкурент Midjourney по качеству изображений, но уступает по функциональности и стоимости тарифов.

Напоследок

Нейросети — ещё один полезный инструмент для оптимизации рабочих процессов человека. Это помощник в создании креативных иллюстраций, который решает проблему с недостатком качественных изображений для статей и творческих проектов, но не заменит работу медийщиков, дизайнеров и иллюстраторов.

Топ-7 нейросетей для рисования: примеры картинок, плюсы и минусы

Современные технологии, в том числе искусственный интеллект (ИИ), постепенно начинают заменять многих специалистов. Закономерно, что и художники начнут «передавать» часть своих задач нейросетям, поскольку в сети появляется все больше программ, способных создавать картины по запросам. Здесь представлены бесплатные нейросети для генерации изображений по описанию или фото с пошаговой инструкцией, как создать картинку.

Как нейросети генерируют изображения

  • генератор, который генерирует новые данные,
  • дискриминатор, который измеряет качество полученной картинки.

Далее наступает очередь модели CLIP, которая находит в тексте пользователя максимально точное описание для изображения, после чего специальный подмодуль оценивает сходство между полученным изображением и его изначальным описанием.

При этом для того, чтобы создать картинку с помощью нейросети, системе приходится анализировать миллионы изображений, загруженных в ее базу. Как правило, они берутся из интернета и сопровождаются соответствующими подписями. Нейросеть объединяет знания обо всех объектах и в дальнейшем находит нужные фрагменты по ключевым словам в запросе. Например, изучив тысячи фотографий с лемурами, в дальнейшем она сможет создать точное изображение животного, уже зная, в какой позе и где он чаще всего сидит.

Лучшие бесплатные нейросети для генерации изображений по описанию и фото

Здесь представлены российские нейросети, позволяющие генерировать изображения, которые на данный момент являются одними из самых удобных и точных.

Fusion Brain

Fusion Brain — это нейросеть, созданная Sber AI, на базе Kandinsky 2.2, однако имеющая в отличие от «материнской» версии дополнительные инструменты редактирования: например, возможность расширения сгенерированного изображения по вертикали или горизонтали и добавления фона.

Для того, чтобы нейросеть смогла создать картинку, нужно перейти на веб-сайт fusionbrain.ai и нажать на вкладку «Открыть редактор» в правом углу экрана, после чего появится интерфейс, в котором необходимо написать текстовое описание будущего изображения.

Далее Fusion Brain предложит несколько инструментов для редактирования: различные стили, уменьшение или увеличение картинки, ластик, который позволяет убирать непонравившиеся объекты. Что касается последнего, то после того, как с помощью него будет стерта часть изображения, необходимо вновь ввести текстовый запрос для этой пустой части. В случае, если получившаяся картинка не устраивает, следует еще раз нажать «Создать». Загрузить работу можно с помощью соответствующей кнопки, которая находится в верхней левой части панели.

  1. Понимает запросы на 101 языке, в том числе русском;
  2. Может генерировать изображения не только по текстовому запросу, но и по выбранному изображению;
  3. Есть 21 стиль на выбор: например, ренессанс и аниме;
  4. Возможность изменить существующее изображение, а также выбрать нужный формат и разрешение;
  5. Высокое качество картинки;
  6. Интуитивно понятный интерфейс;
  7. Бесплатный доступ.
  1. Ограниченное количество инструментов;
  2. Медленная работа с загруженными фотографиями.

Изображение, созданное нейросетью Fusion Brain по запросу

Изображение, созданное нейросетью Fusion Brain по запросу «Уличный кот играет на гитаре».

«Шедеврум»

Это проект компании «Яндекс», который был запущен в 2023 году.

Для работы с системой необходимо скачать приложение, доступное для iOS и Android. Зайдя в программу, откроется главная страница, в правом верхнем углу которой будет значок «плюс», нажав на который программа предложит создать либо текст, либо изображение. Выбрав второе, откроется поле, в которое нужно ввести текст. Генерация картинки, как правило, занимает около минуты, по истечении которой «Шедеврум» предложит на выбор четыре картинки. Затем одну из них можно будет опубликовать в своем профиле, после чего скачать на устройство.

  1. Нейросеть рисует по словам на русском языке;
  2. Подражает известным художникам;
  3. Работает в разных художественных стилях;
  4. Создает сразу четыре картинки на выбор;
  5. Возможность делать GIF;
  6. Количество попыток генерации изображений не ограничено;
  7. Возможность публиковать свои работы и знакомиться с картинками других пользователей;
  8. Бесплатный доступ.
  1. Доступно только в мобильной версии на устройствах на базе iOS и Android;
  2. Нельзя сразу скачать все четыре полученные изображения.

Изображение, созданное нейросетью

Изображение, созданное нейросетью «Шедеврум» по запросу «Уличный кот играет на гитаре».

TurboText_Bot

Это чат-бот, доступный пользователям Telegram, который может не только генерировать изображения, но и создавать различные тексты — новости, описания к товарам, рерайты и т.п.

Найти чат-бот можно, введя в поисковой строке в Telegram «TurboText. Генератор контента с ИИ». Открыв страницу, необходимо нажать на «start» и выбрать вкладку «создать изображение». Затем система попросит ввести текст для дальнейшей генерации картинки, которую она будет создавать примерно одну минуту, и предоставит готовый вариант.

Указывает примерное время ожидания — около одной минуты — и место пользователя в очереди на генерацию;

  1. Возможность обрабатывать фото;
  2. Пользователь может дать описание на русском языке;
  3. Наличие сервиса «Всезнайка изображений», который может решать уравнения, проверять схемы, искать местоположения снимков и описывать все детали на них;
  4. За подписку на канал чат-бот дарит от трех до 100 бесплатных сеансов;
  5. Существует аналогичный чат-бот, но на английском языке;
  6. Бесплатный доступ.
  1. Доступен только в Telegram;
  2. Неширокий функционал;
  3. Число попыток ограничено — всего десять.

Изображение, созданное нейросетью TurboText_Bot по запросу

Изображение, созданное нейросетью TurboText_Bot по запросу «Уличный кот играет на гитаре»

Dream

Dream разработала канадская студия Wombo, которая ранее создала приложение, «заставлявшее» знаменитостей на их фотографиях моргать глазами и шевелить губами под разные песни.

Генерация картинок в Dream происходит следующим образом: пользователь, заходя на сайт dream.ai, вводит в специальную строку, внизу которой также есть подсказки описаний, свой запрос и при необходимости выбирает один из художественных стилей, представленных там же. Далее система в течение примерно 5-10 секунд создает картинку, которую пользователь может приблизить, нажав на соответствующий значок на самом изображение, и, если оно ему понравилось, скачать.

  1. Есть веб-версия и приложение для пользователей Android;
  2. Предоставляет сразу девять картинок на выбор;
  3. Высокая детализация и реалистичность;
  4. Много стилей;
  5. Есть подсказки для ввода запроса;
  6. Пользователь может дать описание на русском языке;
  7. Подходит для генерации уникальных обоев на смартфон;
  8. Не требует регистрации;
  9. Бесплатный доступ.
  1. В интерфейсе сервиса представлено много лишней информации;
  2. Обычный пользователь может получить только одно изображение, в то время как для подписчиков премиум-версии доступны сразу четыре;
  3. Ввод запроса ограничен 350 символами;
  4. Не умеет понимать сложные описания с подробными уточнениями.

Изображение, созданное нейросетью Dream по запросу

Изображение, созданное нейросетью Dream по запросу «Уличный кот играет на гитаре»

ruDALL-E

ruDALL-E является первой нейросетью, научившейся генерировать картинки по описанию на русском языке. Эта система была создана командами «Сбера», Sber AI, SberCloud и SberDevices после того, как в январе 2021 года OpenAI представила нейросеть DALL-E. Специалисты воспроизвели ее код и запустили обучение модели на платформе ML Space.

Использование ruDALL-E максимально простое: для генерации картинки достаточно только ввести нужный запрос в соответствующей строке, расположенной внизу экрана, и выбрать ее размер — 256×256, 512×512 или 1 024×1 024. После этого — нажать на кнопку «Отправить» и дождаться, когда нейросеть создаст картинку. При этом специальной функции скачивания здесь не предусмотрено, а потому пользователю придется самостоятельно нажать на полученное изображение и выбрать «Сохранить как».

  1. Быстрая генерация;
  2. Может анализировать длинные и расширенные запросы;
  3. Наиболее удачное направление, в котором работает, — пейзажи;
  4. Быстрая обратная связь в службе поддержки;
  5. Минималистический интерфейс;
  6. Пользователь может дать описание на русском языке;
  7. Бесплатный доступ.
  1. Низкое качество изображений;
  2. Необходимость регистрации.

Изображение, созданное нейросетью ruDALL-E по запросу

Изображение, созданное нейросетью ruDALL-E по запросу «Уличный кот играет на гитаре»

DreamStudio.Ai

Это официальный портал, который создала компания-разработчик нейросети Stable Diffusion. Однако в отличие от последней систему не нужно устанавливать на ПК, а можно использовать на самом сайте в режиме онлайн.

Веб-сайт DreamStudio.Ai создан полностью на английском языке. Для начала работы с программой нужно нажать на «Get started» в правом верхнем углу экрана. После этого во вкладке «Promt» указать описание картинки, в «Style» выбрать один из предложенных стилей, в «Negative promt» перечислить объекты, которые не хотелось бы видеть, а в «Settings» определить размер картинки. После нажатия на кнопку «Dream» DreamStudio.Ai начнет генерировать изображение. В результате пользователю будет предложено четыре работы, каждую из которых можно скачать.

  1. Предлагает варианты картинки сразу в нескольких стилях: можно выбрать от одного до 10;
  2. Интуитивно понятный интерфейс;
  3. Есть множество инструментов для редактирования полученного изображения;
  4. Нейросеть понимает расширенные описания, в том числе упоминания размеров объектов;
  5. Предлагает подсказки ввода запроса.
  1. Бесплатно доступна только пробная версия;
  2. Нет возможности составить запрос на русском языке;
  3. Требуется регистрация.

Изображение, созданное нейросетью DreamStudio.Ai по запросу

Изображение, созданное нейросетью DreamStudio.Ai по запросу «A street cat plays the guitar»

Mage Space

Mage Space представляет собой платформу для генерации изображений из текста на основе открытого исходного кода встроенной модели Stable Diffusion.

Работать с этой нейросетью можно только на английском языке. Так, зайдя на страницу, пользователь сразу увидит строку, в который нужно вводить описание. Также здесь есть несколько инструментов для более точной генерации картинки — для этого нужно, перейдя во вкладку «Select Models», выбрать стиль картинки, ее размер и сделать настройки более тонкими, что улучшит качество изображения.

  1. Простой функционал;
  2. У пользователя есть возможность показать картинку и запросить генерацию изображения в похожем стиле;
  3. Может создавать арты и обложки для публикаций, что пригодится, например, SMM-специалистам;
  4. В платном тарифе можно запускать одновременно несколько сеансов, отключать рекламу, пользоваться набором более тонких инструментов и создавать GIF;
  5. Есть бесплатная версия.
  1. В бесплатном тарифе ограниченный функционал;
  2. Нет возможности составить запрос на русском языке;
  3. Не понимает русского языка;

Изображение, созданное нейросетью Mage Space по запросу

Изображение, созданное нейросетью Mage Space по запросу «A street cat plays the guitar»

Преимущества нейросетей, генерирующих изображения

Страх представителей творческих специальностей быть замененными ИИ в отдельных случаях оправдан, однако многие видят в современных технологиях возможность развития медиаиндустрии. Например, в июне прошлого года на обложке журнала Cosmopolitan появилась женщина-астронавт, которую сгенерировала нейросеть Dall-e 2. Тем же летом американский кинематографист Стив Коулсон представил хоррор-комикс «Summer Island», в котором самих героей, их костюмы и локации нарисовала нейросеть Midjourney. При этом на данном этапе нейросети пока не имеют профессиональных черт, присущих тем же дизайнерам или художникам, а потому могут быть лишь их полезным инструментом: в частности, создавать несложные логотипы, которые человек потом сможет сам отредактировать.

Помимо этого, нейросеть для рисования способна необычным образом компоновать объекты и создавать ранее неизвестные образы, что поможет авторам получить идеи для своих проектов.

Недостатки нейросетей, генерирующих изображения

Исходя из отзывов пользователей и результатов тестирований таких нейросетей, они имеют больше недостатков, чем преимуществ. Приведем некоторые из них:

  1. Возможность распознавать только те объекты и закономерности, которые есть в базах данных систем;
  2. Нереалистичность отдельных объектов, что снижает достоверность полученного результата;
  3. Появление в сети множества дипфейков;
  4. Обучение нейросетей зачастую происходит на работах настоящих художников, из-за чего, как утверждают эксперты, обесценивается труд последних;
  5. Из предыдущего пункта вытекает проблема этической стороны;
  6. Нейросеть может создать оскорбительное изображение.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *