Новая ИИ-модель Phi-2 от Microsoft училась по учебникам

Microsoft представила новую систему ИИ: малую языковую модель Phi-2. В отличие от больших языковых моделей, работающих с сотнями миллиардов параметров, малая модель Phi-2 имеет 2,7 миллиарда параметров. Phi-2 быстро обучается на специализированных данных, главным образом — это обычные учебники.
Новая ИИ-модель Phi-2 от Microsoft училась по учебникам
Сатья Нателла представляет Phi-2. Microsoft
Малые языковые модели, например, Phi-2 быстро обучаются. Им не нужны мощные процессоры. В перспективе они смогут нормально работать на смартфонах. Такие модели делают ИИ ближе к человеку.

Команда Microsoft Research выпустила набор малых языковых моделей (SLM) под названием «Phi». Первая модель с 1,3 миллиарда параметров Phi-1, достигла современной производительности при кодировании на Python. Затем команда добавила задачи на понимание языка и выпустила новую модель тоже с 1,3 миллиардами параметров под названием Phi-1.5.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Теперь команда выпустила модель с 2,7 миллиардами параметров, которая демонстрирует вполне современный уровень понимания языка. Как утверждают разработчики, модель демонстрирует производительность сравнимую с гораздо более моделями с 13 миллиардами параметров.

Компактная модель Phi-2 является хорошей площадкой для исследователей, в том числе для экспериментов по повышению безопасности и точной настройке различных задач. Уже сегодня Phi-2 доступна в каталоге моделей Azure AI Studio.

Зачем нужны малые языковые модели, если есть большие

Увеличение размера языковых моделей до сотен миллиардов параметров (таковы, например, модели OpenAI или Google) радикально изменили работу с естественным языком. Но остается вопрос: можно ли достичь сравнимых результатов при радикальном меньшем масштабе (в десятки или даже сотни раз), если использовать специализированное обучения на отобранных данных.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

По этому пути пошли разработчики Phi. Им удалось показать, что SLM могут достичь производительности на уровне многих больших моделей (хотя и уступают самым масштабным).

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Выводы к которым пришли разработчики:

  1. Решающую роль в производительности модели играет качество обучающих данных. Это известно на протяжении десятилетий, но при создании Phi-2 данные были ограничены фактически «учебниками». Разработчики буквально утверждают: «Учебники — это все, что вам нужно» . Кроме того, разработчики создали данные для обучения модели здравому смыслу и общим знаниям, включая, среди прочего, науку, повседневную деятельность и «теорию разума» (представление о том, как видит мир собеседник). Учебный корпус тщательно отбирается и фильтруются на основе образовательной ценности и качества контента.
  2. Нужно использовать инновационные методы масштабирования. Как утверждают разработчики новые методы позволяют «выжать» максимальный прирост из каждого добавленного параметра. Резкий прирост возможностей при добавлении всего лишь миллиарда параметров показывает, что эти методы работают.
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Примеры использования

Разработчики привели два примера использования Phi-2 для решения школьных задач. В первом примере модель сама решает задачу по физике, а во втором — находит ошибку в решении.

Phi-2 решает задачу по физике
Phi-2 решает задачу по физике
Microsoft
Phi-2 находит ошибку в решении
Phi-2 находит ошибку в решении
Microsoft