Канадский стартап Lyrebird представил программу на базе искусственного интеллекта, которая, по утверждению разработчиков, способна подделать голос любого человека по одной короткой записи.
Искусственный интеллект научился подделывать человеческие голоса
Эдвард Мунк, "Крик", 1893 - 1910. Темпера, пастель, масло. Национальная галерея в Осло, музей Мунка.

Искусственному интеллекту пока плохо даётся естественный язык, но с голосом всё проще: в прошлом году Adobe выпустила бета-версию «фотошопа для голоса» Project VoCo, с помощью которой в готовой записи можно менять отдельные слова и короткие фразы, работая в текстовом редакторе, а еще раньше ИИ Google DeepMind научился говорить почти человеческим голосом по‑английски и по-китайски.

Но чтобы Project VoCo научилась дополнять запись словами, которые человек не произносил, имитируя при этом его голос, ей нужно «прослушать» минимум 20 минут записи непрерывного потока речи. Канадской разработке Lyrebird достаточно минуты. Результат, конечно, можно отличить от речи живого человека, но сходство впечатляет. Пока программу ещё дорабатывают, и поэкспериментировать с собственными записями нельзя, но можно послушать, как искусственные голоса Дональда Трампа, Барака Обамы и Хиллари Клинтон обсуждают Lyrebird:

Можно убедиться, что eё алгоритмы умеют бесконечно варьировать интонацию:

И удостовериться в том, что искусственных голосов, имитирующих настоящие, можно создать великое множество:

А ещё разработчики Lyrebird (трое профессоров из университета Монреаля) научили ИИ звучать эмоционально — зло, сочувственно или раздражённо.

На вопрос о том, зачем всё это нужно, создатели Lyrebird отвечают долго: «Искусственными голосами, имитирующими голоса известных людей, можно записывать аудиокниги, можно синтезировать речь для людей, которые потеряли собственный голос, в анимации и играх, наделять такими голосами устройства с голосовыми интерфейсами». В этом списке, конечно, нет пунктов вроде «подделка голосов в корыстных целях» и «создание записей, дающих алиби». Зато на сайте проекта есть раздел «Этика», где авторы Lyrebird признают: да, их технология может создать новый вид мошенничества. И предлагают выход: нужно сделать технологию доступной всем и каждому, чтобы люди знали о существовании подобных технологий и не слишком доверяли голосам. Не стоит, к примеру, верить слегка звонку близкого друга или родственника, если знакомый, но слегка механический голос просит перевести ему крупную сумму денег.