Нейросеть DALL-E: обзор возможностей (+ инструкция)

Нейросеть Dall-E создана около года назад, поэтому до сих пор претерпевает изменения и доработки. Она известна своей способностью создавать изображения в разных стилях от сюрреализма до гиперреализма. Работы, сгенерированные с ее помощью, демонстрируют на выставках художники, а также используются в рекламе и даже на обложках журналов.

Содержание

Особенности сети Dall-E
Тренировка CLIP
Обзор возможностей Dall-E
Примеры изображений Dall-E
Интерфейс нейросети
Инструкция по использованию нейросети
Регистрация в России
Как создать изображение-картинку под запрос
Как правильно сформулировать описание запроса в нейросети
Что такое диффузная модель
Как создать изображение по фото
Способы улучшить изображение
Похожие нейросети

Особенности сети Dall-E

Dall-E – нейросеть, которая умеет создавать изображения по текстовому описанию на английском языке. Первая версия сети издана компанией OpenAI в 2021 году. В ноябре того же года команда разработчиков, включая специалистов Сбера, создали модификацию ruDALL-E, которая обрабатывает и русскоязычные запросы.

Бесплатно пользователям доступно 50 генераций. Далее плата за подписку (каждые 115 генераций) составит 15 долларов.

Dall-E-2 – усовершенствованная версия нейросети, представленная в апреле 2022 года. Она обладает более высокой точностью и четкостью изображений, может трансформировать одно изображение в другое по описанию.

Тренировка CLIP

Первый этап в работе нейросети – перевод человеческой речи в машинную, чтобы работа первой стала возможной. Эту функцию выполняет одна из частей Dall-E – нейросеть CLIP. Изначально она обучалась правильно распознавать то, что происходит на картинке, то есть выполнять обратную операцию. Тренировали ее таким образом: давали несколько пар (картинка в пикселях+текст), а задачей нейросети был перевод их в две сопоставимые метрики в виде чисел, которые соотносились потом по степени похожести. Таким образом, CLIP натренировалась выбирать подходящее к рисунку описание.

Обзор возможностей Dall-E

Примеры изображений Dall-E

29 декабря 2022 года в Сан-Франциско завершилась первая в мире выставка, где инструментом художников выступила нейросеть Dall-E. Считается, что искусственный интеллект не может заменить самого художника. Она лишь помогает ему создать уникальный шедевр, на изготовление которого обычно требуется много времени.

Нейросеть DALL-E: обзор возможностей (+ инструкция)

Среди знаменитых артов в интернете также можно встретить “Красивая женщина смотрит в старое окно”, “Поникший мужчина сидит в спальне”, “Снимок как Дарт Вейдер ждет в очереди в Макдональдсе в 90-х годах” и многие другие. Рисунки, которые находятся в свободном доступе, отбирают на обозрение как наиболее удачные.

Интерфейс нейросети

Инструкция по использованию нейросети

Регистрация в России

В обычной Dall-E зарегистрироваться можно только через VPN-сервисы. Этапы регистрации:

Определить в VPN свое положение в другой стране (например, Италия). Лучше всего применять туннелированную на сервер выбранной страны программу, чтобы результат был гарантирован.
Зарегистрировать новый аккаунт в Google.
Купить номер телефона другой страны (например, Италии. VPN-адресация и страна для номера телефона должны совпадать). Для покупки номера, можно использовать сервсис https://onlinesim.ru/
Ввести номер телефона и почту при регистрации на сайте OpenAI.

Чтобы воспользоваться ruDALL-E регистрация вообще не нужна. Генерация изображений происходит на официальном сайте при отправке запроса.

Как создать изображение-картинку под запрос

Для создания идеального запроса удобно использовать сервис Phraser. Для этого необходимо следовать алгоритму на сайте:

Выбрать нейросеть и формат контента.
Описать словами то, что собираетесь изобразить.
Определить стиль арта (если требуется) из стилей художников, фотографов.
Выбрать параметры рисования: цвет и текстуру, а также эмоции, которые будет вызывать готовый рисунок.

Также можно воспользоваться сервисом Prompter, который представляет собой таблицу стилей с краткими пояснениями к параметрам, которые будут составлять запрос. Минус программы – отсутствие наглядности.

Как правильно сформулировать описание запроса в нейросети

Американская версия Dall-E изображает запрос только на английском языке. Запрос должен быть максимально точным и понятным для машины. Несколько рекомендаций для создания запроса:

Избегайте формулировок с частицей “не”, фразой “за исключением” и т.д. Запрос с ними может быть распознан неправильно.
Указывайте простые параметры без художественной окраски.
Уточняйте запрос. Например, сеть может неправильно понять фразу “Кот с тарелкой”. Лучше: “Кот сидит рядом с тарелкой”.
Уточняйте другие параметры (цвет, освещение, год, век, стиль и т.д.). Указывайте через запятую или точку.

Что такое диффузная модель

По сути Dall-E представляет собой связку из трех нейросетей. Первая, CLIP, переводит человеческий язык на язык машинного кода, цифр. Далее она собирает эти цифры в таблицу с другими цифрами, создавая тем самым “набросок” будущего рисунка. Чтобы это стало возможным, CLIP целенаправленно тренировали на 600 миллионах различных артов и подписях к ним.

Следующим этапом набросок получает нейросеть GLIDE. Она применяет диффузную модель, то есть совмещает набросок и первоначальный текст, создавая серый зернистый квадрат. Зерно постепенно уменьшается и в конечном итоге получается изображение плохого качества.

Третья нейросеть получает изображение из предыдущего этапа и в 16 раз улучшает его качество.

Как создать изображение по фото

Редактировать готовые картинки Dall-E обучили совсем недавно. Для этого необходимо:

После авторизации на странице генерации нажать кнопку “Загрузить изображение”. Выбрать источник загрузки из списка.
Нажать кнопку редактирования “Editimage”.
Воспользоваться инструментами (ластиком для удаления лишнего).
Добавить в строку запроса текстовый запрос для изменения исходного изображения. Можно сгенерировать измененный файл несколько раз.
Сохранить файл на компьютер.

Способы улучшить изображение

По умолчанию система генерирует четыре вариации изображения и предлагает выбрать одну из них. Чтобы сделать полученный результат лучше, рекомендуется добавлять уточняющие параметры. Важно помнить, что нейросеть не может опознавать текст как обычный человек и чем конкретнее и точнее будет параметр, тем качественнее выйдет картинка.

Если изменить предлагается уже готовое изображение, загруженное извне, необходимо воспользоваться инструкцией выше.