Нейросеть DALL-E: обзор возможностей (+ инструкция)

нейросеть DALL-E Нейросети 2024

Нейросеть Dall-E создана около года назад, поэтому до сих пор претерпевает изменения и доработки. Она известна своей способностью создавать изображения в разных стилях от сюрреализма до гиперреализма. Работы, сгенерированные с ее помощью, демонстрируют на выставках художники, а также используются в рекламе и даже на обложках журналов.

Особенности сети Dall-E

Dall-E – нейросеть, которая умеет создавать изображения по текстовому описанию на английском языке. Первая версия сети издана компанией OpenAI в 2021 году. В ноябре того же года команда разработчиков, включая специалистов Сбера, создали модификацию ruDALL-E, которая обрабатывает и русскоязычные запросы.

Бесплатно пользователям доступно 50 генераций. Далее плата за подписку (каждые 115 генераций) составит 15 долларов.

Dall-E-2 – усовершенствованная версия нейросети, представленная в апреле 2022 года. Она обладает более высокой точностью и четкостью изображений, может трансформировать одно изображение в другое по описанию.

Тренировка CLIP

Первый этап в работе нейросети – перевод человеческой речи в машинную, чтобы работа первой стала возможной. Эту функцию выполняет одна из частей Dall-E – нейросеть CLIP. Изначально она обучалась правильно распознавать то, что происходит на картинке, то есть выполнять обратную операцию. Тренировали ее таким образом: давали несколько пар (картинка в пикселях+текст), а задачей нейросети был перевод их в две сопоставимые метрики в виде чисел, которые соотносились потом по степени похожести. Таким образом, CLIP натренировалась выбирать подходящее к рисунку описание.

Обзор возможностей Dall-E

Примеры изображений Dall-E

29 декабря 2022 года в Сан-Франциско завершилась первая в мире выставка, где инструментом художников выступила нейросеть Dall-E. Считается, что искусственный интеллект не может заменить самого художника. Она лишь помогает ему создать уникальный шедевр, на изготовление которого обычно требуется много времени.

Нейросеть DALL-E: обзор возможностей (+ инструкция)
Нейросеть DALL-E: обзор возможностей (+ инструкция)

Среди знаменитых артов в интернете также можно встретить “Красивая женщина смотрит в старое окно”, “Поникший мужчина сидит в спальне”, “Снимок как Дарт Вейдер ждет в очереди в Макдональдсе в 90-х годах” и многие другие. Рисунки, которые находятся в свободном доступе, отбирают на обозрение как наиболее удачные.

Интерфейс нейросети

Нейросеть DALL-E: обзор возможностей (+ инструкция)

Инструкция по использованию нейросети

Регистрация в России

В обычной Dall-E зарегистрироваться можно только через VPN-сервисы. Этапы регистрации:

  1. Определить в VPN свое положение в другой стране (например, Италия). Лучше всего применять туннелированную на сервер выбранной страны программу, чтобы результат был гарантирован.
  2. Зарегистрировать новый аккаунт в Google.
  3. Купить номер телефона другой страны (например, Италии. VPN-адресация и страна для номера телефона должны совпадать). Для покупки номера, можно использовать сервсис https://onlinesim.ru/
  4. Ввести номер телефона и почту при регистрации на сайте OpenAI.

Чтобы воспользоваться ruDALL-E регистрация вообще не нужна. Генерация изображений происходит на официальном сайте при отправке запроса.

Как создать изображение-картинку под запрос

Для создания идеального запроса удобно использовать сервис Phraser. Для этого необходимо следовать алгоритму на сайте:

  1. Выбрать нейросеть и формат контента.
  2. Описать словами то, что собираетесь изобразить.
  3. Определить стиль арта (если требуется) из стилей художников, фотографов.
  4. Выбрать параметры рисования: цвет и текстуру, а также эмоции, которые будет вызывать готовый рисунок.

Также можно воспользоваться сервисом Prompter, который представляет собой таблицу стилей с краткими пояснениями к параметрам, которые будут составлять запрос. Минус программы – отсутствие наглядности.

Как правильно сформулировать описание запроса в нейросети

Американская версия Dall-E изображает запрос только на английском языке. Запрос должен быть максимально точным и понятным для машины. Несколько рекомендаций для создания запроса:

  1. Избегайте формулировок с частицей “не”, фразой “за исключением” и т.д. Запрос с ними может быть распознан неправильно.
  2. Указывайте простые параметры без художественной окраски.
  3. Уточняйте запрос. Например, сеть может неправильно понять фразу “Кот с тарелкой”. Лучше: “Кот сидит рядом с тарелкой”.
  4. Уточняйте другие параметры (цвет, освещение, год, век, стиль и т.д.). Указывайте через запятую или точку.

Что такое диффузная модель

По сути Dall-E представляет собой связку из трех нейросетей. Первая, CLIP, переводит человеческий язык на язык машинного кода, цифр. Далее она собирает эти цифры в таблицу с другими цифрами, создавая тем самым “набросок” будущего рисунка. Чтобы это стало возможным, CLIP целенаправленно тренировали на 600 миллионах различных артов и подписях к ним.

Следующим этапом набросок получает нейросеть GLIDE. Она применяет диффузную модель, то есть совмещает набросок и первоначальный текст, создавая серый зернистый квадрат. Зерно постепенно уменьшается и в конечном итоге получается изображение плохого качества.

Третья нейросеть получает изображение из предыдущего этапа и в 16 раз улучшает его качество.

Как создать изображение по фото

Редактировать готовые картинки Dall-E обучили совсем недавно. Для этого необходимо:

  1. После авторизации на странице генерации нажать кнопку “Загрузить изображение”. Выбрать источник загрузки из списка.
  2. Нажать кнопку редактирования “Editimage”.
  3. Воспользоваться инструментами (ластиком для удаления лишнего).
  4. Добавить в строку запроса текстовый запрос для изменения исходного изображения. Можно сгенерировать измененный файл несколько раз.
  5. Сохранить файл на компьютер.

Способы улучшить изображение

По умолчанию система генерирует четыре вариации изображения и предлагает выбрать одну из них. Чтобы сделать полученный результат лучше, рекомендуется добавлять уточняющие параметры. Важно помнить, что нейросеть не может опознавать текст как обычный человек и чем конкретнее и точнее будет параметр, тем качественнее выйдет картинка.

Если изменить предлагается уже готовое изображение, загруженное извне, необходимо воспользоваться инструкцией выше.

Похожие нейросети

  • Playgroundai. Появление этой нейросети было анонсировано американской компании Nvidia в 2019 году, но рабочий вариант появился лишь на излете 2022 года.
  • Runway. Работает со статическими изображениями и видео. Позволяет создавать новый контент или редактировать уже готовый: добавлять стиль, убирать или менять фон и т.д.
  • Canva Al Image Generator. Позволяет создавать арты в 2D и 3D по ключевым запросам. Удобно редактировать получаемые результаты.
  • Jasper. Используется для создания контентов для рекламы и социальных сетей. Есть настройки по ключевым фразам, настроению, стилю.
Оцените статью
Нейросети
Добавить комментарий