Нейросеть Stable Diffusion: обзор возможностей (+ инструкция)

Нейросеть Stable Diffusion Нейросети 2024

Нейросеть Stable Diffusion генерирует яркие и сочные картинки по текстовому запросу на английском языке. Удобная функция в том, что пользователю сразу предлагается четыре варианта изображения.

Особенности сети Stable Diffusion

Это одна из топовых бесплатных нейросетей, создающих изображения. Stable Diffusion начала работу в середине 2022 года и на сегодняшний день выдает наиболее гармоничные по пропорциям картинки по сравнению со многими другими нейросетями.

Создание Stable Diffusion велось на основе Мюнхенского университета межнациональной группой разработчиков. Для использования полной версии нейросети требуются навыки программирования, также есть ряд технических требований к оборудованию.

В качестве компонента понимания используется языковая модель Transformer. Она получает текстовую строку, а затем ради цифрового баланса создает эмбеддинги токенов.

Варианты работы

Есть три варианта взаимодействия с нейросетью Stable Diffusion.

  • Первый – через консоль. Достоинства этого метода в лучшем понимании алгоритмов работы нейросети и более широких возможностях при создании изображений с учетом обновлений в сфере генерации картинок. Через консоль работают люди, знающие основы программирования, а также имеющие продвинутое «железо» с большим объемом видеопамяти.
  • Второй – через браузер. Есть два сайта нейросети, один из которых бесплатный и не требуется регистрации, на втором надо регистрироваться, но и функций он предлагает больше. Плюсы работы через браузер в том, что отпадает нужда в установке ПО на ПК, минусы – в меньшем количестве функций, более медленной работе, высокой вероятности ошибки из-за перегруженности сервера.
  • Третий – через интерфейс. Это использование графического интерфейса с установщиком. Достоинства в том, что этот метод не требует углубленных знаний в сфере программирования, а недостаток заключается в минимальном количестве настроек.

Обзор возможностей Stable Diffusion 2023

Есть два главных отличия Stable Diffusion от других нейросетей. Это открытый исходный код, позволяющий трансформировать тексты в картинки. А также нацеленность генеративной поисковой системы на реалистичные изображения с высокой эстетической составляющей.

Интерфейс нейросети и обзор настроек

Нейросеть Stable Diffusion: обзор возможностей (+ инструкция)
Расширенный интерфейс Stable Diffusion (по настройкам с нашего сайта)

Установка Stable Diffusion

Для удобства ввода запросов и ради экономии времени рекомендуем установить Stable Diffusion на ПК с Windows 10. Для этого достаточно прочитать нашу пошаговую инструкцию по установке нейросети.

Минимальные системные требования

Видеокарта с минимум 4 гигабайтами видеопамяти. То есть, вы вполне можете использовать нейросеть на чём-то вроде 1050ti.

Инструкция по использованию Stable Diffusion

Это программа с открытым исходным кодом. Состоит из обученной нейросети и «обвязки». Регулярно выходят обновления.

Как правильно сформулировать promt

Promt – это описание того, что вы хотите, чтобы нейросеть вам создала. Качество сгенерированного изображения напрямую зависит от текстового запроса. Стандартные рекомендации: не использовать частицы отрицания, формулировать максимально просто, указывать как можно больше уточняющих деталей. Все пишется на английском, поэтому переводчик всегда должен быть под рукой.

Лучшие промты мы публикуем на нашем сайте, в разделе “Промт“. Достаточно просто найти подходящую вам картинку и скопировать её запрос.

Для примера возьмем длинный запрос (promt):

professional portrait of a eagle, abstract beauty, approaching perfection, blue reflections, delicate face, dynamic, moonlight, highly detailed, digital painting, artstation, concept art, smooth, sharp focus, illustration, art by Carne Griffiths and Wadim Kashin, centered, symmetry, painted, intricate, volumetric lighting, beautiful, rich deep colors masterpiece, sharp focus, ultra detailed, in the style of dan mumford and marc simonetti, astrophotography

Перевод:

профессиональный портрет орла, абстрактная красота, приближающийся к совершенству, голубые отблески, нежное лицо, динамичный, лунный свет, высокая детализация, цифровая живопись, artstation, концепт-арт, плавный, четкий фокус, иллюстрация, работы Карна Гриффитса и Вадима Кашина, по центру, симметрия, раскрашенный, сложный, объемное освещение, красивый, шедевр насыщенных глубоких цветов, четкий фокус, сверхдетализированный, в стиле Дэна Мамфорда и Марка Симонетти, астрофотография

И вот что мы получаем в итоге в Stable Diffusion:

интерфейс Stable Diffusion
Увеличьте нажав на картинку
Нейросеть Stable Diffusion: обзор возможностей (+ инструкция)
Нейросеть Stable Diffusion: обзор возможностей (+ инструкция)

Используемые настройки:

Sampling methodEuler a
Sampling steps65
CFG Scale8,5
Width и Height515 x 515

Использование моделей в Stable Diffusion

Для более профессиональной работы с нейросетью, многие пользователи создают модели, которых обучают специализиронным стилям. Например: роботы, аниме, Inkpunk и другие. Лучшей моделью на начало 2023 года считается Deliberate, она считается универсальной и очень хорошо справляется с генерацией анатомии человека (руки, голова, глаза).

Установив модель Anything V3 вы сможете генерировать всевозможные изображения в стиле аниме. Установив Robo Diffusion вы создадите шедевры, на которых будут разнообразные роботы.

Как установить модель в Stable Diffusion

Модели являются ядром нейросети Stable Diffusion и установить их довольно просто. Если вы устанавливали нейросеть по моей инструкции и используете ее на свойм ПК, то вам достаточно скачать нужную модель по ссылке и разместить ее в папке с программой \models\Stable-diffusion.

После этого вы можете нажать кнопку “обновить” и выбрать нужную вам модель.

Нейросеть Stable Diffusion: обзор возможностей (+ инструкция)

Как увеличить изображение с помощью Stable Diffusion

За увеличение разрешение и качества изображение отвечает функция upscaler. Ее использовать во вкладке img2img. О том, как пошагово улучшить ваши картинки, я сделал отдельную инструкцию.

Основные функции

В этом разделе я собрал основные функции Stable Diffusion, их назначение, описания и инструкцию как применять.

txt2img

Главная вкладка для работы по созданию изображений.

Нейросеть Stable Diffusion: обзор возможностей (+ инструкция)

Описание кнопок и полей:

  • Поле №1 – строка, куда мы пишем Promt (то, что хотим сгенерировать).
  • Поле №2 – строка, куда мы пишем Negative Promt (то, что хотим исключить из изображения).
  • Кнопка 3 (Generate). Создания изображения. Немного тормозит во время первого использования
  • Кнопка 4 (Sampling steps). Количество шагов в создании изображения. В теории, больше – лучше, но это не всегда так работает. Я, лично, рекомендую 20-30 (для NAI рекомендуется 28)
  • Кнопка 5 (Sampling method). Метод создания. DPM Fast выдаёт самые «странные» результаты, остальные – экспериментируйте. (P.S. Heun чаще всего выдаёт фута-контент)
  • Кнопка 6 (Width и Height). Размеры изображения
  • Кнопка 7. Разнообразные фиксы
  • Кнопка 8. Количество изображений
  • Кнопка 9. значимость вашего промта. Чем выше – тем больше вероятность, что ИИ учтёт весь ваш текст и выдаст меньше самопроизвола… Но, естественно, это также повышает и шанс «забавных» результатов (рекомендуется использовать 7)

img2img

Вторая вкладка предназначена для работы с изображением (с текущим или то. которое вы загрузите).

Нейросеть Stable Diffusion: обзор возможностей (+ инструкция)
  • Поле №1. Сюда вы загружаете изображение.
  • Поле №2. Функция запроса информации об изображении. CLIP лучше работает с реалистичными, Danbooru – с рисунками. После использования вы получите предполагаемый промт изображения, которое загрузили в ИИ
  • Поле №3. Сила ориентировки на оригинальное изображение. Работает по тому же принципу, как и кнопка выше, только наоборот – чем ниже значение, тем больше ИИ ориентируется на ваше изображение. Советуется использовать 70 или, если вам вот прямо так сильно хочется получить вариацию оригинала, то 50-60
  • Поле №4. Функция inpaint, о которой мы поговорим в следующем пункте

Inpaint

Функция позволяет вам «дорисовать» или “поправить” изображение в том месте, где вы этого хотите.

Нейросеть Stable Diffusion: обзор возможностей (+ инструкция)
Раздел inpaint c переводом кнопок

Рекомендации по формированию промтов

Правильно сформулированный с первого раза запрос является важным условием быстрой и качественной работы с нейросетью. Особенно это важно при взаимодействии с нейросетями, дающими ограниченное количество бесплатных попыток. Но даже в полностью бесплатных нейросетях максимально точная характеристика желаемого изображения экономит время, тратящееся на генерацию картинки.

Онлайн сервисы для генерации Prompt в Stable Diffusion

Предлагаем краткий обзор по самым востребованным онлайн-сервисам:

  • Visualise Studio. Рисунки создаются бесплатно. Для улучшения работы используются токены. Своими подсказками можно делиться с другими пользователями, а также использовать чужие наработки.
  • Visual Studio 2022. На этой площадке можно редактировать, собирать и отлаживать код. Есть функция публикации получившихся картинок. Редактор бесплатный, работает с Windows, Linux и macOS. Предлагает множество функций (графические конструкторы, компиляторы и прочее).
  • Dream Studio. Нейросеть обучена на примерах работ реальных художников. Ознакомительный период работы бесплатный, затем нужно оплачивать подписку (от 16 долларов). Требует регистрации. Дает возможность выбирать стиль трансформации изображения.
  • PlaygroundAi. Условно-бесплатная нейросеть, с которой пользователи из России могут работать через аккаунты на Google. Без оплаты можно использовать версия 1.5, платный доступ открывает версию 2.1 Stable Diffusion и DALL-E. В качестве движка можно использовать несколько ИИ.
  • Mage.Space. Бесплатная нейросеть, за раз генерирующая одно изображение. На создание каждой картинки уходит не менее минуты. Недавно вышло обновление Mage v2.0, в рамках нового плана Pro представлено более десятка ИИ. Есть возможность создания пикантных образов.
  • Stable Diffusion Generator. Бесплатная нейросеть, принимающая запросы на русском языке. На генерацию образа уходит до минуты времени. Часто случаются сбои из-за перегруженности сервера.
  • Avyn. Требует регистрации. В бесплатном режиме выдает случайные картинки, сгенерированные на основе 10 миллионов стабильных диффузных изображений. Отличается очень простым меню с минимумом функций.
  • Dezgo. Нейросеть работает на основе ИИ со стабильной диффузией. В бесплатной версии можно генерировать картинку по текстовому запросу. Есть подсказки, с помощью которых можно уточнить требования к конечному результату. Доступны дополнительные возможности в виде создания портрета, пейзажа. Можно написать отрицательный запрос, указав, чего не должно быть в изображении.
  • Draw Things. Полностью бесплатная нейросеть на основе моделей стабильного распространения. Работает достаточно быстро, за раз генерирует одно изображение. Если в приоритете конфиденциальность, то Draw Things можно скачать на ПК и работать с ней в автономном режиме.

Как генерировать изображение по фото или картинке

Есть вариации нейросети, которые дают возможность преобразовывать уже имеющиеся в базе картинки до совершенно нового и необычного вида. В таких случаях текстовый запрос не требуется. Достаточно выбрать подходящее изображение из базы данных, либо загрузить свой собственный оригинальный снимок или рисунок.

Улучшение изображения

В Stable Diffusion используется подборка из пяти миллиардов изображений, находящихся в общем доступе в сети Интернет. Чаще всего используются картинки с ресурсов DeviantArt, Pinterest и Getty Images. Нейросеть может трансформировать изображения в соответствии со стилями реальных художников. Это возможно за счет использования банка высокопроизводительных графических процессоров (Nvidia A100 и т.д.).

Примеры артов и картинок Stable Diffusion

Для примера мы создали за раз четыре картинки по запросу: «Большая иллюстрация пиратского корабля под водой Среди китов, акул и рыб в стиле Дзюнджи Ито, центрированный, симметричный, раскрашенный, замысловатый, объемное освещение, красивый, насыщенный глубокими цветами шедевр, четкий фокус, сверхдетализированный, в стиле Дэна Мамфорда и Марка Симонетти, астрофотография».

Результат:

Нейросеть Stable Diffusion: обзор возможностей (+ инструкция)
Нейросеть Stable Diffusion: обзор возможностей (+ инструкция)
Нейросеть Stable Diffusion: обзор возможностей (+ инструкция)

Приложение для iPhone и iPad

Stable Diffusion можно установить посредством App Store на iPhone и iPad. На указанных гаджетах нейросеть работает бесплатно.

Ссылка на приложение: https://apps.apple.com/ru/app/draw-things-ai-generation/id6444050820

Stable Diffusion можно пользовать в режиме оффлайн, тогда данные не отправляются на сторонние сервера. Генерация образов происходит за счет процессора планшета Apple или смартфона. Установленная на гаджетах нейросеть поддерживает около десяти чекопоинтов (моделей «.ckpt»), в частности, создает аниме-картинки и генерирует изображения в стиле 3D-рендеров.

Похожие нейросети

В Интернете множество нейросетей, генерирующих изображения по текстовым запросам и/или трансформирующих изображения в соответствии с выбранными пользователями параметрами. Мы составили ТОП-3 таких нейросетей.

  • Thisanimedoesnotexist.ai – это удобный ресурс с автоматическим переводом сопутствующего текста на русский язык. Требует регистрации с указанием личной электронной почты. Есть бесплатный тариф (базовый), на котором доступно создание аниме-картинки по рандомному текстовому запросу. Для облегчения работы пользователя с нейросетью предусмотрена функция подсказок (можно выбрать из десятка таких параметров, как «глаза», «одежда», персонаж» и прочее).
  • Selfie2anime одновременно использует две нейронные сети, одна из которых создает изображение, а вторая оценивает реалистичность полученного результата. Работает без регистрации и оплаты. Имеет очень простое меню: при заходе на сайт пользователь сразу попадает на окно для загрузки фотографии или рисунка, который требуется трансформировать. Результат приходит на e-mail, который нужно указать на сайте нейросети.
  • Animegan.js.org имеет облегченное меню и выдает приличный в плане реалистичности результат. Как и в предыдущем варианте нейросети, здесь пользователь сразу попадает на форму загрузки исходного изображения, затем нужно выбрать желаемый размер картинки и дождаться окончания трансформации образа. На обработку одного снимка уходит около минуты…

Анализ других ресурсов показывает, что Stable Diffusion на сегодняшний день по обученности и функционалу является одной из лучших графических нейросетей с открытым исходным кодом. Нейросеть продолжает активно дорабатываться авторами, поэтому ждем новых свершений на пути развития искусственного интеллекта в мире искусства.

Оцените статью
Нейросети
Добавить комментарий