РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Распознать любой ценой: как искусственный интеллект научился понимать арабский язык

Каждому из нас хотелось бы говорить на любом языке мира, не прилагая к этому никаких усилий. При этом мы примерно понимаем, что овладеть английским чуть легче, чем китайским, а испанским — легче, чем арабским. Кажется, что у искусственного интеллекта с лингвистикой вообще не должно возникнуть никаких проблем. Но так ли это на самом деле, расскажет Владимир Арлазаров, к.т.н., генеральный директор компании Smart Engines.
Тэги:
Распознать любой ценой: как искусственный интеллект научился понимать арабский язык

Самое интересное, что шкала сложности изучения языков действительного существует. Например, американский Институт зарубежной службы при Госдепе делит все языки на 4 категории в зависимости от того, сколько часов нужно носителям английского языка на их изучение до уровня свободного владения. Самые сложные языки — это арабский, китайский, корейский и японский, и на их изучение придется потратить не менее 2200 часов. Тогда как на испанский, к примеру, не более 600 часов. 

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

В этой статье мы расскажем, допустимо ли считать арабский язык сложным для человека и искусственного интеллекта (спойлер — да), и почему распознавание арабской вязи — это отдельная ачивка для ИИ.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Что делает арабский таким сложным для человека?

Чтобы ответить на этот вопрос, достаточно вспомнить знаменитый анекдот:

— Ты француз?

— Да.

— О, а скажи что-нибудь на арабском?

Особенность номер один — это отсутствие единого арабского. Арабский язык является основным языком сразу во многих странах мира, что неизбежно ведет к возникновению различных местных диалектов, отличающихся друг от друга так же сильно, как русский от польского, и ни у одного из этих диалектов нет письменного варианта. 

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Особенность номер два — письменный арабский язык существует в как минимум двух формах. Это классический арабский язык или язык Корана, жесткая, довольно архаичная форма языка. Остается практически неизменной со времени написания Корана и используется в теологических кругах до сих пор. Его использование ограничено, в первую очередь, строгим религиозным контекстом, и в этом отношении он сродни русскому церковно-славянскому языку. Вторая форма — это литературный арабский язык или Modern Standard Arabic (MSA). Это наиболее широко используемая и универсальная форма арабского языка из всех существующих. Именно на нем вещают международные арабские каналы BBC Arabic или катарский «Аль-Джазира», на нем пишется арабская Википедия. Сегодня практически все образование в арабском мире ведется на MSA, и он действительно становится языком панарабского общения. В конце концов, арабский язык именно в этой форме является одним из 6 официальных языков ООН (английский, французский, русский, испанский, китайский и арабский) и имеет официальный статус во всех 22 арабоязычных странах.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

С точки зрения письменности, уникальным арабский язык делают:

  • письменность справа налево,
  • консонантное письмо (пишутся только согласные, а гласные подразумеваются),
  • использование лигатур, то есть связки из двух букв, имеющей специальное начертание (слитное написание нескольких букв). Одна лигатура — лям-алиф — является стандартной, и написание этой пары букв иначе, чем при помощи лигатуры, не допускается. Остальные лигатуры необязательны, и их использование зависит от выбранного каллиграфического стиля.

Очевидно, это довольно сложный для изучения язык в силу многообразия форм.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Искусственный интеллект VS арабский

Для ИИ самыми легкими и понятными будут языки, подходящие по следующим критериям:

  • Не очень большая вариативность одного символа и малое количество промежуточных вариантов буквы (или какого-нибудь символа), что удобно для ИИ. К примеру, буква А может быть написана как а или А
  • Слова легко делятся на символы, а границы между символами легко четко проставить. То есть вы понимаете, где заканчивается один символ и начинается другой.
  • Отсутствие или малое количество мелких деталей, ведь они неизбежно съедаются при бликах, плохом качестве цветопередачи, малом разрешении.
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Арабский язык усложняет задачу ИИ во всех трех случаях. Вот как текст может выглядеть в документе:

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Это изображение, как и остальные примеры, было создано искусственно с учетом реальных искажений, вносимых съемкой в неконтролируемых условиях.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Теперь давайте вспомним про лигатуры, то есть сдвоенные буквы, которые каждый человек может использовать, как душе угодно, из-за их необязательности. Но как определить, где в изображении подобного качества (фото ниже) лигатура, а где просто буква? 

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Из-за большого количества точек, которые в плохих условиях для распознавания (темно, блики, размазано, плохая печать) делают любой документ практически нечитаемым, а также множества лигатур, арабский и является, пожалуй, самым требовательным к качеству ИИ. Поэтому постоянное обучение наших нейросетей распознаванию арабского языка в документах любого качества — это большое достижение Smart Engines. На данном этапе документы на арабском языке стали важным дополнением к списку данных, которые мы распознаем: паспорта РФ и 192 стран; водительские права, ID, заграничные паспорта, визы, свидетельства, СТС, ПТС и другие документы — устойчивое к качеству изображений распознавание смартфоном, планшетом, сервером, веб-камерой, на видео, фотографиях/сканах. 

youtube
Нажми и смотри
Нажми и смотри

Так может ли искусственный интеллект распознавать арабский язык лучше человека? Ответ — может. И с каждым годом будет делать это все лучше и лучше.  

Автор: Владимир Арлазаров, к.т.н., генеральный директор Smart Engines

Загрузка статьи...