Давняя мечта многих людей — быть полиглотом, понимать и свободно изъясняться на любом иностранном языке — сегодня отчасти стала реальностью. Быстро понять суть иностранного текста, англоязычного web-сайта и даже спросить у прохожего в незнакомой стране, как найти гостиницу, нам помогают «электронные полиглоты» — программы-переводчики, или системы машинного перевода.

Может быть, наступит время, когда в мозг человека будут вживлять специальные «чипы», с помощью которых мы сами сможем свободно говорить на любом языке и понимать речь иностранного собеседника. Но есть еще одна проблема: скорость! Только сверхчеловек, герой научно-фантастического романа, сможет справиться с переводом нескольких десятков страниц за одну минуту. В обычной жизни необходимо потратить немало часов или даже дней, чтобы освоиться с иноязычным текстом, и это при условии, что мы владеем нужным иностранным языком. Поэтому в данном случае системы машинного перевода представляют собой очень полезный инструмент, который поможет быстро преодолеть языковой барьер и к тому же сэкономить большое количество времени.

Разговор по понятиям

Понятие — сущ., ср. [логически расчлененная общая мысль о предмете]; idea, notion; concept (ion); comprehension.

Что же такое машинный перевод (МП)? Если ответить кратко, это связный перевод текста с одного языка на другой, выполняемый компьютерной программой. Причем в отличие от словаря, программа не делает подстрочный перевод каждого слова в отдельности, а выполняет именно связный перевод с учетом грамматических, синтаксических и других особенностей языка. Существуют различные технологии разработки систем МП, о которых речь пойдет ниже, однако суть машинного перевода состоит именно в выполнении программой связного перевода текста на основе анализа особенностей входного и выходного языков.

Как же программе удается на выходе представить связный текст с учетом грамматики языка? На сегодняшний день широко известны два основных подхода к разработке систем машинного перевода: МП на основе правил (алгоритмов) (rule-based machine translation) и статистический МП (statistical-based machine translation).

Адекватный перевод

Адекватный — (или адэкватный), прил. [лат., филос. — вполне соответствующий оригиналу]; appropriate, good (профессиональный, хороший); adequate (достаточный).

Технология, которая называется rule-based machine translation (то есть основанная на обработке лингвистических алгоритмов), на сегодняшний день применяется наиболее широко. Ее использует большинство разработчиков: SYSTRAN (Франция), Linguatec (Германия) и российская компания ПРОМТ.

При работе по этой технологии система МП сначала анализирует исходный текст: проводит морфологический анализ слов в предложении, затем синтаксический анализ и на заключительном этапе выполняет синтез предложений в переведенном тексте. Таким образом, система проводит большую работу, формируя связный перевод предложения на основе информации о каждом слове и согласуя между собой все члены предложения. Такой алгоритм работы отчасти сродни работе человека-переводчика: он также анализирует текст, ищет варианты перевода в своей «словарной базе», применяет правила, то есть сначала анализирует текст, а потом синтезирует вариант перевода.

Перевод по статистике

Перевод — сущ., муж. [действие по передаче содержания текста на одном языке средствами другого языка, а также его результат]; translation; version; interpretation.

Вторая технология перевода — статистический машинный перевод — получила широкое распространение совсем недавно благодаря разработкам компании Google. Поисковый портал Google представил пользователям онлайновый сервис с BETA-версиями некоторых языковых направлений, разработанных на основе статистической технологии.

В процессе работы система анализирует огромные словарные базы парных фрагментов (фраз из двух-трех слов) — оригинал фрагмента и его перевод. Программа вычисляет наиболее вероятную последовательность слов выходного языка, которую она считает соответствующей переводу исходного текста. В отличие от традиционных систем перевода статистическая программа не учитывает в своей работе грамматические правила, что, безусловно, отражается на качестве перевода. Нередки случаи, когда вместо связного перевода статистический переводчик выдает совершенно несогласованные предложения, лишенные всякого смысла.

Существует мнение, что статистический машинный перевод более перспективен и на выходе предлагает более качественный перевод, чем традиционная технология. Но пока практика доказывает обратное. Одна из причин низкого качества перевода статистической системы — недостаточный объем словарных баз. Яркие примеры перевода (отрывки новостей информационного агентства Reuters) с английского языка на русский представлены в таблице 1. Переводы были выполнены с помощью системы PROMT (машинный перевод на основе правил) и онлайн-портала Google (статистический машинный перевод). Из приведенных примеров видно, что на данный момент сервис Google не всегда справляется с переводом имен и названий, возникают сложности с согласованием членов предложения, и получившийся вариант перевода больше напоминает подстрочник. Вполне вероятно, что в будущем разработчикам удастся повысить качество переводов, выполняемых этим методом МП, однако есть опасение, что такой системе не хватает применения лингвистических алгоритмов, анализа особенностей входного и выходного языков (принцип, на базе которого действуют традиционные системы).

Машинный перевод, основанный на правилах, также имеет погрешности и на данный момент не может предложить идеального качества перевода. Однако в целом перевод, основанный на применении правил, выглядит более гладко, и смысл текста понятен сразу. Налицо преимущество традиционной технологии МП, по крайней мере такова ситуация на сегодняшний день.

Два в одном

1. два, один -числ. 2. два в одном [напр. шампунь и кондиционер в одном флаконе]; two-in-one; two-in-one preparation (парф.).

Недавно разработчики систем МП начали обсуждать идею объединения обеих технологий машинного перевода — традиционного и статистического методов МП — с целью нейтрализовать недостатки того и другого. Есть мнение, что это позволит усилить традиционную технологию перевода и добиться положительного синергетического эффекта.

Человек против машины: кто кого?

Человек — сущ., муж. (Homo sapiens) [в зоологическом отношении составляет отдельное семейство отряда приматов]; person, man, human being, individual; body; bones; fellow.

Современные программы-переводчики научились более-менее связно переводить большие объемы информации с самых разных языков. Однако многие из нас могут поспорить, что качество перевода электронного толмача совершенно не соответствует результату труда человека-переводчика. Не стоит делать поспешные выводы: сегодняшние системы МП — это действительно умные программы, которые пусть и не заменят труд переводчика на 100%, но могут значительно облегчить его.

Сегодняшние системы МП укомплектованы большим количеством полезных инструментов для повышения качества перевода текстов из различных областей знаний. В частности, можно зарезервировать (сохранить) названия организаций или имена, и тогда программа оставит их непереведенными, что позволит избежать нелепостей при переводе (см. пример в таблице 2).

Кроме того, можно подключать к системе словари, содержащие специализированную лексику. Такие словари обычно предлагают сами разработчики программ. Есть еще одна полезная возможность: пользователь может самостоятельно создавать собственные словари и заносить в них именно те варианты перевода, которые ему необходимы. Подключение пользовательского словаря также позволит корректно перевести необходимую информацию. В современных системах перевода можно задавать правила перевода (настраивать перевод местоимений и модальных глаголов в зависимости от разных условий, задавать тип текста и др.), предлагать на выбор несколько вариантов перевода одного слова (варианты представлены в скобках) и сохранять заданные настройки в виде шаблонов, чтобы не задавать их каждый раз заново.

Освоение полезных возможностей программы помогает на выходе получить достойное качество перевода и существенно сократить время на его редактирование. Важно учитывать и то, что с помощью системы перевода мы можем всего за несколько секунд получить доступ к необходимой информации (получить черновой вариант перевода), то есть сэкономить время и быстро обработать большой объем текста, что сегодня актуально как никогда.

Статья опубликована в журнале «Популярная механика» (№1, Январь 2008).