ИИ научился видеть сетевых троллей

Искусственный интеллект почитал агрессивные комментарии пользователей Reddit и понял, как разговаривают люди, которые ненавидят других людей. Обмануть его сложнее, чем обычный бот-модератор.

Редакция сайта

Интернет населён толстыми и тонкими троллями и просто грубыми людьми, которые не лезут в карман за словом. Модерировать интернет вручную — тяжелый и неблагодарный труд. Боты, запрограммированные на поиск слов из «запретного списка», справляются лучше, но они не могут знать, когда едкий комментарий с кодовыми словами — безобидная шутка, а когда — злая словесная атака.

Исследователи из Канады научили искусственный интеллект отличать грубые шутки от обидных шуток и того, что социологи называют «языком вражды».

Дана Уормсли, одна из создателей ИИ, отмечает, что «язык вражды» с трудом поддаётся формальному анализу. В самом деле,формально оскорбительные слова можно употреблять и с иронией, и в их более мягких значениях; только часть текстов, содержащих такие слова, всерьез разжигает и унижает. Примеров мы приводить не станем, потому что у правительственных организаций, регулирующих интернет в России, искусственного интеллекта пока нет).

Нейросеть тренировали на образцах высказываний членов сообществ, известных своей враждебностью к разным группам населения. Нейросеть училась на постах сайта Reddit — площадки, на которой можно найти самые разнообразные группы по интересам, от борцов за гражданские права до радикальных женоненавистников. Тексты, которые загружали в систему, чаще всего оскорбляли афроамериканцев, людей с лишним весом и женщин.

Натренированная таким образом нейросеть давала меньше ложных срабатываний, чем программы, определяющие «язык вражды» по ключевым словам. Система улавливала расизм там, где вовсе не было слов-индикаторов. Но несмотря на хорошие показатели, создатели ИИ-модератора не уверены в том, что их разработка получит широкое применение. Пока она успешно находит «язык вражды» на Reddit, но сможет ли она так же работать в Facebook (Социальная сеть признана экстремистской и запрещена на территории Российской Федерации) и на других платформах, неизвестно. К тому же система несовершенна: иногда она пропускает многие очевидно грубые расистские высказывания, которые не пропустила бы система поиска ключевых слов. Единственным, кто способен отличить оскорбление от невинной шутки, пока остаётся человек.