Искусственный интеллект почитал агрессивные комментарии пользователей Reddit и понял, как разговаривают люди, которые ненавидят других людей. Обмануть его сложнее, чем обычный бот-модератор.
Редакция ПМ
ИИ научился видеть сетевых троллей

Интернет населён толстыми и тонкими троллями и просто грубыми людьми, которые не лезут в карман за словом. Модерировать интернет вручную — тяжелый и неблагодарный труд. Боты, запрограммированные на поиск слов из «запретного списка», справляются лучше, но они не могут знать, когда едкий комментарий с кодовыми словами — безобидная шутка, а когда — злая словесная атака.

Исследователи из Канады научили искусственный интеллект отличать грубые шутки от обидных шуток и того, что социологи называют «языком вражды».

Дана Уормсли, одна из создателей ИИ, отмечает, что «язык вражды» с трудом поддаётся формальному анализу. В самом деле, формально оскорбительные слова можно употреблять и с иронией, и в их более мягких значениях; только часть текстов, содержащих такие слова, всерьез разжигает и унижает. Примеров мы приводить не станем, потому что у правительственных организаций, регулирующих интернет в России, искусственного интеллекта пока нет).

Нейросеть тренировали на образцах высказываний членов сообществ, известных своей враждебностью к разным группам населения. Нейросеть училась на постах сайта Reddit — площадки, на которой можно найти самые разнообразные группы по интересам, от борцов за гражданские права до радикальных женоненавистников. Тексты, которые загружали в систему, чаще всего оскорбляли афроамериканцев, людей с лишним весом и женщин.

Натренированная таким образом нейросеть давала меньше ложных срабатываний, чем программы, определяющие «язык вражды» по ключевым словам. Система улавливала расизм там, где вовсе не было слов-индикаторов. Но несмотря на хорошие показатели, создатели ИИ-модератора не уверены в том, что их разработка получит широкое применение. Пока она успешно находит «язык вражды» на Reddit, но сможет ли она так же работать в Facebook и на других платформах, неизвестно. К тому же система несовершенна: иногда она пропускает многие очевидно грубые расистские высказывания, которые не пропустила бы система поиска ключевых слов. Единственным, кто способен отличить оскорбление от невинной шутки, пока остаётся человек.

Понравилась статья?
Подпишись на новости и будь в курсе самых интересных и полезных новостей.
Спасибо.
Мы отправили на ваш email письмо с подтверждением.