Представьте, что вы решили оцифровать, а затем опубликовать книгу, которая была издана в дореволюционное время. Новейшие мощные сканеры, способные работать без участия человека, сами перелистывают страницы, современное программное обеспечение преобразовывает отсканированные страницы в текст, но он будет, естественно, в исходной старой орфографии. Это неудобно для потенциальной обработки документа, ведь большинство алгоритмов автоматического анализа работают только с произведениями в современной орфографии. Для этого и нужна система автоматического приведения текста в привычный для читателя вид.
Существует несколько подходов к преобразованию текстов из одной орфографии в другую: основанный на правилах, статистический, основанный на машинном обучении, нейронный машинный перевод, а также гибридный, который может сочетать перечисленные выше методы. Так как орфография — это совокупность четких правил написания слов, на основе которых может быть создан алгоритм перевода, исследователи выбрали правиловый подход. Всё усложняется тем, что до середины XX века орфография русского языка не была официально утверждена. «До революции появлялись орфографические справочники, на их основании писались гимназические грамматики, но нормы не были кодифицированы. Декрет Совета народных комиссаров от 10 октября 1918 года "О введении новой орфографии" был весьма краток, и описывал то, что требует изменения, далеко не полностью. Например, вышло так, что ижица (Ѵ) вообще не была упомянута», — рассказывает ведущий научный сотрудник ИВТ СО РАН доктор технических наук Владимир Борисович Барахнин.