Алгоритм, разработанный учеными Массачусетского технологического института (МТИ), теперь может распознавать сарказм (и эмоциональный подтекст в общем) лучше большинства людей. Это позволит компьютерам автоматически находить и удалять оскорбительные, агрессивные твиты и комментарии.

Видео MIT Media Lab

Вначале ученые хотели разработать систему, способную распознавать расистские посты в Twitter. Однако в скором времени они обнаружили, что значение некоторых сообщений нельзя «схватить» целиком, не понимая сарказма.

Алгоритм использует технологию глубокого обучения (крупную нейросеть учат распознавать крошечные паттерны при помощи большого количества метаданных). Многие твиты содержат в себе нечто похожее на систему знаков для выражения эмоций — эмодзи. Как только ученые воспользовались этим для обучения системы, она сразу стала лучше понимать сарказм. Нейросеть уловила связь между определенным языковым стилем и соответствующими смайлами.

Чтобы натренировать алгоритм (названный DeepMoji), исследователи собрали 55 млрд твитов и отобрали 1,2 млрд — в них содержались некоторые комбинации из 64 популярных эмодзи. Для начала они обучили систему предсказывать, какой из смайлов будет использоваться при определенном сообщении, в зависимости от того, какое оно — грустное, радостное, веселое и т. д. После этого систему обучали идентифицировать сарказм с помощью существующего набора данных.

Испытания DeepMoji прошли успешно. Ученые обнаружили, что алгоритм функционирует лучше существовавших до него.

Разработчики создали специальный сайт, где каждый может протестировать работу нового алгоритма. Так, когда вы введете определенное предложение, программа автоматически «додумает» возможные смайлы, подходящие по смыслу.