Машинное обучение помогло расшифровать мертвые языки

Понять язык, если вы знаете всего тысячу слов из него, практически невозможно. Но новая программа позволяет сделать это

Большая часть когда-либо существовавших языков уже мертва или находится на грани исчезновения. Многие языки известны ученым только по древним надписям на археологических находках. Но утраченные языки — нечто большее, чем просто академическое любопытство. Без них мы теряем все знания о людях, которые на них говорили.

К сожалению, археологические свидетельства для большей части таких языков содержат минимум информации. Текста настолько мало, что ученые не могут расшифровать его с помощью алгоритмов машинного перевода. Некоторые тексты на мертвых языках тяжелы в расшифровке из-за отсутствия знаков препинания и «языков сравнения», которые могли бы помочь в переводе.

Сотрудники Лаборатории искусственного интеллекта Массачусетского технологического института сделали крупное открытие в этой области: они придумали систему, которая способна автоматически переводить текст с потерянного языка, не нуждаясь в информации о его связи с другими языками. Ученые также показали, что их система может сама определять отношения между языками.

Авторы использовали алгоритм с машинным обучением, чтобы подтвердить недавние исследования, предполагающие, что иберский язык на самом деле не связан с баскским. Исследователи хотят усовершенствовать систему так, чтобы она могла расшифровывать потерянные языки, используя всего несколько тысяч слов. Программа использует принципы исторической лингвистики, согласно которым языки обычно развиваются только определенным предсказуемым образом.

Алгоритм рассматривает звуки языка как векторы в многомерном пространстве, чтобы различия в их произношении определялись расстоянием между соответствующими векторами. Такая конструкция позволяет им фиксировать соответствующие паттерны языковых изменений и выражать их в виде переменных. Полученная модель может сегментировать слова в древнем языке и сопоставлять их с аналогами в родственном языке.