Нейросеть Dall-E создана около года назад, поэтому до сих пор претерпевает изменения и доработки. Она известна своей способностью создавать изображения в разных стилях от сюрреализма до гиперреализма. Работы, сгенерированные с ее помощью, демонстрируют на выставках художники, а также используются в рекламе и даже на обложках журналов.
- Особенности сети Dall-E
- Тренировка CLIP
- Обзор возможностей Dall-E
- Примеры изображений Dall-E
- Интерфейс нейросети
- Инструкция по использованию нейросети
- Регистрация в России
- Как создать изображение-картинку под запрос
- Как правильно сформулировать описание запроса в нейросети
- Что такое диффузная модель
- Как создать изображение по фото
- Способы улучшить изображение
- Похожие нейросети
Особенности сети Dall-E
Dall-E – нейросеть, которая умеет создавать изображения по текстовому описанию на английском языке. Первая версия сети издана компанией OpenAI в 2021 году. В ноябре того же года команда разработчиков, включая специалистов Сбера, создали модификацию ruDALL-E, которая обрабатывает и русскоязычные запросы.
Бесплатно пользователям доступно 50 генераций. Далее плата за подписку (каждые 115 генераций) составит 15 долларов.
Dall-E-2 – усовершенствованная версия нейросети, представленная в апреле 2022 года. Она обладает более высокой точностью и четкостью изображений, может трансформировать одно изображение в другое по описанию.
Тренировка CLIP
Первый этап в работе нейросети – перевод человеческой речи в машинную, чтобы работа первой стала возможной. Эту функцию выполняет одна из частей Dall-E – нейросеть CLIP. Изначально она обучалась правильно распознавать то, что происходит на картинке, то есть выполнять обратную операцию. Тренировали ее таким образом: давали несколько пар (картинка в пикселях+текст), а задачей нейросети был перевод их в две сопоставимые метрики в виде чисел, которые соотносились потом по степени похожести. Таким образом, CLIP натренировалась выбирать подходящее к рисунку описание.
Обзор возможностей Dall-E
Примеры изображений Dall-E
29 декабря 2022 года в Сан-Франциско завершилась первая в мире выставка, где инструментом художников выступила нейросеть Dall-E. Считается, что искусственный интеллект не может заменить самого художника. Она лишь помогает ему создать уникальный шедевр, на изготовление которого обычно требуется много времени.
Среди знаменитых артов в интернете также можно встретить “Красивая женщина смотрит в старое окно”, “Поникший мужчина сидит в спальне”, “Снимок как Дарт Вейдер ждет в очереди в Макдональдсе в 90-х годах” и многие другие. Рисунки, которые находятся в свободном доступе, отбирают на обозрение как наиболее удачные.
Интерфейс нейросети
Инструкция по использованию нейросети
Регистрация в России
В обычной Dall-E зарегистрироваться можно только через VPN-сервисы. Этапы регистрации:
- Определить в VPN свое положение в другой стране (например, Италия). Лучше всего применять туннелированную на сервер выбранной страны программу, чтобы результат был гарантирован.
- Зарегистрировать новый аккаунт в Google.
- Купить номер телефона другой страны (например, Италии. VPN-адресация и страна для номера телефона должны совпадать). Для покупки номера, можно использовать сервсис https://onlinesim.ru/
- Ввести номер телефона и почту при регистрации на сайте OpenAI.
Чтобы воспользоваться ruDALL-E регистрация вообще не нужна. Генерация изображений происходит на официальном сайте при отправке запроса.
Как создать изображение-картинку под запрос
Для создания идеального запроса удобно использовать сервис Phraser. Для этого необходимо следовать алгоритму на сайте:
- Выбрать нейросеть и формат контента.
- Описать словами то, что собираетесь изобразить.
- Определить стиль арта (если требуется) из стилей художников, фотографов.
- Выбрать параметры рисования: цвет и текстуру, а также эмоции, которые будет вызывать готовый рисунок.
Также можно воспользоваться сервисом Prompter, который представляет собой таблицу стилей с краткими пояснениями к параметрам, которые будут составлять запрос. Минус программы – отсутствие наглядности.
Как правильно сформулировать описание запроса в нейросети
Американская версия Dall-E изображает запрос только на английском языке. Запрос должен быть максимально точным и понятным для машины. Несколько рекомендаций для создания запроса:
- Избегайте формулировок с частицей “не”, фразой “за исключением” и т.д. Запрос с ними может быть распознан неправильно.
- Указывайте простые параметры без художественной окраски.
- Уточняйте запрос. Например, сеть может неправильно понять фразу “Кот с тарелкой”. Лучше: “Кот сидит рядом с тарелкой”.
- Уточняйте другие параметры (цвет, освещение, год, век, стиль и т.д.). Указывайте через запятую или точку.
Что такое диффузная модель
По сути Dall-E представляет собой связку из трех нейросетей. Первая, CLIP, переводит человеческий язык на язык машинного кода, цифр. Далее она собирает эти цифры в таблицу с другими цифрами, создавая тем самым “набросок” будущего рисунка. Чтобы это стало возможным, CLIP целенаправленно тренировали на 600 миллионах различных артов и подписях к ним.
Следующим этапом набросок получает нейросеть GLIDE. Она применяет диффузную модель, то есть совмещает набросок и первоначальный текст, создавая серый зернистый квадрат. Зерно постепенно уменьшается и в конечном итоге получается изображение плохого качества.
Третья нейросеть получает изображение из предыдущего этапа и в 16 раз улучшает его качество.
Как создать изображение по фото
Редактировать готовые картинки Dall-E обучили совсем недавно. Для этого необходимо:
- После авторизации на странице генерации нажать кнопку “Загрузить изображение”. Выбрать источник загрузки из списка.
- Нажать кнопку редактирования “Editimage”.
- Воспользоваться инструментами (ластиком для удаления лишнего).
- Добавить в строку запроса текстовый запрос для изменения исходного изображения. Можно сгенерировать измененный файл несколько раз.
- Сохранить файл на компьютер.
Способы улучшить изображение
По умолчанию система генерирует четыре вариации изображения и предлагает выбрать одну из них. Чтобы сделать полученный результат лучше, рекомендуется добавлять уточняющие параметры. Важно помнить, что нейросеть не может опознавать текст как обычный человек и чем конкретнее и точнее будет параметр, тем качественнее выйдет картинка.
Если изменить предлагается уже готовое изображение, загруженное извне, необходимо воспользоваться инструкцией выше.
Похожие нейросети
- Playgroundai. Появление этой нейросети было анонсировано американской компании Nvidia в 2019 году, но рабочий вариант появился лишь на излете 2022 года.
- Runway. Работает со статическими изображениями и видео. Позволяет создавать новый контент или редактировать уже готовый: добавлять стиль, убирать или менять фон и т.д.
- Canva Al Image Generator. Позволяет создавать арты в 2D и 3D по ключевым запросам. Удобно редактировать получаемые результаты.
- Jasper. Используется для создания контентов для рекламы и социальных сетей. Есть настройки по ключевым фразам, настроению, стилю.