Опубликована русскоязычная версия генератора текстов

Разработчики из «Сбера» выпустили русскоязычную версию алгоритма для генерирования текстов GPT-3, представленного Open AI в мае нынешнего года.
Опубликована русскоязычная версия генератора текстов
Pixabay
Систему обучили на 600 гигабайтах русскоязычных текстов, включая классическую литературу и популярные интернет-сайты
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

В мае текущего года разработчики из Open AI представили GPT-3 – новую версию алгоритма для генерирования текстов. Несмотря на использование той же самой архитектуры, что и в GPT-2, в новой версии увеличено количество используемых параметров, данных для обучения и способностей. GPT-3 умеет не только генерировать отдельные тексты, но и отвечать на вопросы по прочитанному материалу, решать простые арифметические примеры, расшифровывать анаграммы и даже составлять стихи.

Кроме того, GPT-3 умеет переводить тексты: разработчики не стали ограничивать язык при сборе данных, так что в выборку попали 7% не англоязычных текстов. Текстов на других языках, впрочем, всё же недостаточно для того, чтобы модель показывала похожие на английский язык результаты для других языков — на них её нужно обучать отдельно. Как сообщается в блоге руководителя проекта Сергея Маркова на «Хабре», разработчики из «Сбера» решили обучить алгоритм русскому языку.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Для этого они совместно с разработчиками из AGI NLP собрали массив текстов размером 600 гигабайтов, а для обучения использовали русскую литературу, русскую и английскую «Википедию», новостные сайты, публичные разделы портала Pikabu и Omnia Russica. Как и в случае с оригинальной англоязычной моделью GPT-3, модель «Сбера» при этом не полностью русскоязычная: доля иностранных языков в обучающей выборке составила 10%.

Разработчики «Сбера» для обучения взяли модель GPT-3 Large: Open AI представили несколько моделей GPT-3, отличающихся количеством параметров — от 125 миллионов до 175 миллиардов. Для обучения использовали суперкомпьютер «Кристофари», а исходный код модели разработчики выложили на GitHub. Русскоязычная модель, судя по результатам работы, умеет выполнять то же самое, что и оригинальная — даже создавать небольшие массивы программного кода.