Лингвистический гомункул: как сохранить в Сети исчезающие языки

Лингвистический гомункул: как сохранить в Сети исчезающие языки

Из 7,3 млрд человек больше половины разговаривают на одном из десяти крупнейших языков. Большая часть текстов в интернете написаны на английском или севернокитайском (мандаринском) — это вызывает опасения, что вскоре они вовсе вытеснят языки менее распространенные. Однако судьба малых языков в Сети развивается совершенно противоположным образом.

В безопасности

Русский язык и в Сети, и в офлайне занимает вполне достойное восьмое место среди крупнейших. Благодаря широкому распространению в России интернета на нем говорят в общей сложности 103 млн пользователей — почти 3% от их общего числа в мире. В одной только русскоязычной «Википедии» наберется почти 1,4 млн страниц, а из 10 млн самых посещаемых сайтов 6,4% написаны на русском. Все это создает внушительную базу текстов, существующих параллельно на русском и других крупных языках. А она позволяет использовать стандартные, статистические подходы к созданию систем машинного перевода между такими языковыми парами.

Одинаковые статьи в версиях «Википедии» на разных языках, переводы религиозных канонов и классических литературных произведений дополняются колоссальным объемом нового материала. Такие страницы часто легко обнаружить по названиям документов, которые могут отличаться лишь указанием RU или ENG. А если учесть характерные последовательности специальных символов, редких слов, цифр и другие особенности, то можно автоматически дополнять исходный набор еще бόльшим числом параллельных текстов. Неудивительно, что заняты этим в основном крупные интернет-компании, поисковики, которые индексируют многие миллиарды страниц на разных языках.

Однако начало современному статистическому подходу положили разработчики IBM Research. Еще в 1980-х они работали с массивом документов канадского парламента, которые обязательно переводятся на английский и французский, и предложили рассматривать текст на одном языке как полученный по сильно зашумленному каналу — а значит, «с ошибками» — текст другого языка. В такой модели «шумного канала» в исходные фразы требуется вносить исправление за исправлением, пока они не превратятся в аналогичные фразы уже на новом языке.

Это и делается на основе статистики параллельного употребления слов в одинаковых фразах на разных языках. При этом система может учитывать правила морфологии (образования и изменения слов) и синтаксиса (построения предложений), а качество машинного перевода проверяют люди, пока он не достигнет приемлемого уровня. «И хрюкотали зелюки, как мюмзики в мове», — интерпретирует оригинальный текст онлайн-система переводов Google; заметно, что машине знакомы параллельные фразы на английском и русском, и это простейший вариант.

Под угрозой

Определить, что же такое языки, и отделить их от диалектов, удается не всегда, так что даже точное число человеческих языков назвать не возьмется, наверное, никто. Обычные оценки колеблются в пределах от 6000 до 7000, причем выпускаемый ЮНЕСКО «Атлас языков мира, находящихся под угрозой исчезновения» выделяет среди них 2473, существование которых в будущем совсем не гарантировано. Цыганский и эрзянский, идиш и крымско-татарский практически не осваиваются молодыми поколениями, их носители стареют, использование сокращается.

Исчезающие языки России
Уязвимые Под угрозой исчезновения Серьезная угроза Критическая угроза исчезновения Исчезнувшие

01 башкирский

02 тувинский

03 якутский

04 карачаево-балкарский

05 кабардино-черкесский

06 осетинский

07 ингушский

08 чеченский

09 кумыкский

10 лакский

11 даргинский

12 табасаранский

13 лезгинский

14 аварский

01 коми

02 коми-пермяцкий

03 удмуртский

04 ненецкий

(тундровый диалект)

05 хантыйский

(северные диалекты)

06 сибирско-татарский

07 хантыйский

(восточные диалекты)

08 хакасский

09 южно-алтайский

10 долганский

11 бурятский

12 хамниганский

13 абазинский

14 трухменский

15 калмыцкий

16 алабугатско-татарский

17 ногайский

18 джуури

19 агульский

20 цахурский

21 рутульский

22 годоберинский

23 чамалинский

24 тиндинский

25 инхокаринский

26 цезский

27 гинухский

28 бежтинский

29 гунзибский

30 хваршинский

31 багвалинский

32 ахвахский

33 каратинский

34 ботлихский

35 андийский

36 арчинский

01 кильдинский саамский

02 коми-язьвинский

03 мансийский

(северные диалекты)

04 сибирско-татарский

(барабинский диалект)

05 ненецкий
(лесной диалект)

06 селькупский

(северное наречие)

07 кетский

08 северно-алтайский

09 шорский

10 цаатанский

11 эвенкийский

12 нганасанский

13 бурятский

14 эвенский

15 центрально-юпикский

16 чукотский

17 корякский

18 алюторский

19 нивхский

20 нанайский

21 тазский диалект

01 йоканьгско-саамский

02 мансийский

(восточные диалекты)

03 энецкий

(тундровый диалект)

04 энецкий (лесной диалект)

05 селькупский

(центральное наречие)

06 селькупский

(южное наречие)

07 чулымский

08 тофаларский

09 маньчжурский

10 даурский

11 северноюкагирский

12 южноюкагирский

13 науканский

14 ительменский

15 алеутский

16 алеутский (восточный диалект)

17 нивхский

18 негидальский

19 ульчский

20 орокский

21 орочский

22 удэгейский

01 бабинский саамский

02 мансийский

(западные диалекты)

03 мансийский

(южные диалекты)

04 хантыйский

(южные диалекты)

05 югский

06 камасинский тюркский

07 камасинский

08 сойотский

09 эвенский

(арманский диалект)

10 сиреникский

11 керекский

12 айнский

Специалисты ЮНЕСКО выделяют девять факторов, которыми определяется угроза исчезновения для языка. Помимо сокращения числа носителей среди них фигурирует ограниченность материалов, необходимых для освоения языка и пользования им, будь то книги, печатные СМИ или интернет-сайты. Это же ставит сложный барьер перед создателями систем для машинного перевода не только с исчезающих, но и просто с малых языков, таких как чувашский или адыгейский. Миллионы примеров, необходимых для обучения компьютерных алгоритмов, здесь просто неоткуда взять.

«Именно тут мы и подумали, что языки можно рассматривать не как отдельные, изолированные друг от друга системы, а с учетом их связей друг с другом, — рассказал нам разработчик группы машинного перевода «Яндекса» Антон Дворкович. — Получается, что если мы хотим построить перевод для языка, по которому данных недостаточно, то стоит обратиться к более крупному родственному языку или к близкому, уже «освоенному» машиной. Лексика, морфология, синтаксис — отдельные элементы заимствуются из него для заполнения «пустот» в модели малого языка».

В системе, построенной Антоном и его коллегами, ядро для перевода составляется на основе тех текстов на малом языке, которые удается найти. Сопоставляя параллельные фразы, обычно удается выделить значения ключевых слов и их формы, особенности употребления в том или ином контексте, некоторые правила морфологии и т. д. Затем к ним «подключаются» уже готовые модели родственных языков: у одного можно заимствовать принципы образования множественного числа, у другого — склонение или значение не встретившегося в базовых текстах, но близкого слова и т. д.

На грани

Используя новый подход, в «Яндексе» приступили к созданию механизмов машинного перевода для малых языков России. «Бармаглот нерген лудын, эргым! Тудын янлык да тыге свирлеп», — это на языке луговых марийцев, помимо которого система уже освоила горномарийский и удмуртский, идиш и башкирский. Она не просто использует знакомые слова, но и видоизменяет заимствованные из близких языков. Но и это лишь капля в море. Из тысяч языков мира подавляющее большинство используется лишь немногочисленными локальными группами, и любой из них может оказаться под угрозой исчезновения.

Среди регионов мира, особенно богатых такими вымирающими языками, называют центр и восток российской Сибири. Начиная с 1950-х годов здесь исчезло около десятка языков, и еще несколько десятков готовятся разделить эту судьбу в ближайшие годы.

Нельзя сказать, что озабоченности профессиональных лингвистов остальной мир не замечает. Google по собственной инициативе поддерживает проект Endangered Languages, где собираются данные о языках, находящихся под угрозой. Сервис Microsoft Translator Hub позволяет любому энтузиасту составить и обучить собственную систему переводов, используя заранее заданные программные модули.

Однако пока реализуются такие «гуманитарные» проекты, число природных носителей многих крошечных языков продолжает падать, на некоторых говорят не более нескольких человек в мире. В прошлом такие языки были бы обречены, как сотни предшественников, уже канувших в историю. Но сегодня системы машинного перевода, подобные разработанной в «Яндексе», могут стать для них неожиданным спасением. Пока на таких языках сохранились какие-никакие тексты, пока есть отдельные говорящие на них люди, остается возможность создать «искусственного носителя» — машинную систему, которая хотя и не понимает смысла речи, но способна вполне адекватно использовать слова, которые скоро не будет знать уже никто.

Остается дополнить систему функциями анализа и синтеза речи, голосового ввода-вывода — и мы получим почти живого «лингвистического гомункула», искусственное существо, подобное настоящему носителю. С таким «големом» можно будет вполне полноценно поговорить, как многие «общаются» с электронными голосовыми ассистентами Siri или Cortana. По словам руководителя группы машинного перевода «Яндекса» Сергея Губанова, в такой перспективе нет ничего невозможного, и вопрос лишь в ресурсах: «Автоматический перевод и чат-бот, распознавание и синтез речи — в 2017 году все это обычная реальность. В случае малых языков проблема состоит в том, чтобы научиться работать в условиях серьезной нехватки данных. Но и в этом направлении за последнее время мы продвинулись очень неплохо».

Статья «Лингвистический гомункул» опубликована в журнале «Популярная механика» (№5, Май 2017).
Комментарии

Авторизуйтесь или зарегистрируйтесь,
чтобы оставлять комментарии.