08.01.2021, 04:00

Расскажи ИИ, что ты хочешь увидеть. И он нарисует

Команда Open.AI, разработавшая знаменитую программу генерации текстов GPT-3, разработала на ее основе нейросеть DALL-E, которая может по описанию на естественном языке нарисовать картинку. При этом ИИ учитывает взаимное расположение предметов, тень и перспективу.

Владимир Губайловский

Теги:

Карта

Карт

Нейросети

Мультфильм

Расскажи ИИ, что ты хочешь увидеть. И он нарисует

https://openai.com/blog/dall-e/

Если ИИ еще и научится рисовать, что же тогда останется человеку? Успокаивает, что ИИ рисует, используя уже готовые исходные образцы. Так что полноценным творчеством его работу назвать пока нельзя. Но он быстро учится.

Команда Open.AI обучила искусственную нейронную сеть генерировать изображения по текстовым описаниям. Программу назвали DALL-E — это анаграмма из имени знаменитого художника Сальвадора Дали (Dali) и не менее знаменитого робота WALL-E (героя одноименного мультфильма). То есть что-то среднее между роботом и человеком.

Основой работы DALL-E является нейросеть GPT-3 с 12 миллиардов параметров. Но при обучении используются не только слова и буквы естественного языка, но и изображения. При обучении сеть получает наборы токенов — как текстов (подписи), так и картинок. Причем картинки проходят несколько степеней сжатия и абстрагирования. Фактически это схемы изображений. Такие схемы ассоциированные с текстом и становятся основой того, с чем работает DALL-E.

На изображении могут быть несколько предметов, и сеть учитывает их взаимное расположение (красный кубик лежит на зеленом) и правильно понимает, какие зоны закрыты от взгляда в зависимости от направления..

По каждой подписи можно создать бесконечно много картинок, поэтому сеть кроме генерации изображения выполняет еще и ранжирование. Она уже может рисовать не только плоские картинки 2D, но и трехмерные изображения с учетом теней и перспективы. Например, она может изобразить пуму — при взгляде сверху или прямо, в горах или на солнечной поляне. Может заменить пуму на лису. То есть композиционные вариации достаточно широки, но чтобы нарисовать «Постоянство памяти» DALL-E нужно еще поучиться. До великого тезки ей пока далеко.

В блоге Open.AI, где опубликовано сообщение о DALL-E, разработчики обещают в ближайшее время выложить подробное описание работы нейросети. Разработчики пишут: «Мы осознаем, что генеративные модели могут оказать значительное влияние на общество. В будущем мы планируем проанализировать, каким образом модели, подобные DALL-E... могут повлиять на рабочие процессы и профессии».

Когда GPT-3 стала писать колонки для газет, это уже вызвало тревогу: а не вытеснит ли она пишущих журналистов? Теперь пришло время тревожиться и художникам. Пока нейросеть им не угрожает, поскольку использует готовые стандартизированные словари токенов (схем), но она быстро учится.

До сих пор нейросети не умели рисовать с нуля, а только преобразовали изображения (хотя и делали это довольно изобретательно, как например Prizma).

DALL-E — это еще один шаг к самостоятельному творчеству машин.