Датировка на автомате: Алгоритм истории

Несмотря на все усилия специалистов, до сих пор миллионы средневековых рукописей ожидают датировки. Возможно, в этом грандиозном и кропотливом труде историков заменят компьютеры.
Датировка на автомате: Алгоритм истории

Бюрократизм средневековой Великобритании — настоящее сокровище для историков. Каждый гражданский и религиозный акт, каждая смена владельца земли и собственности здесь тщательно фиксировались на протяжении долгих столетий. Разумеется, на латыни.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

В результате в архивах Соединенного Королевства сохранилось на сегодня более миллиона таких хартий, рисующих детальную картину жизни — политики, экономики, общества в X—XIV вв. Они способны открыть взлеты и падения владетельных властителей, церквей, армий, торговых ассоциаций — всю пеструю гамму времени, последовавшего за успехом Первого Крестового похода.

Словом, эти хартии имеют значительную научную ценность — если б не одна беда: большинство из них не датируются точно, особенно те, что относятся к периоду нормандского правления между 1066 и 1307 гг. А без датировки получить истинную картину практически невозможно.

Доверить решение этой проблемы компьютерам предлагают канадские ученые, которые работают над алгоритмом автоматической датировки средневековых рукописей. Для этого в качестве исходного материала они предлагают взять около 10 тыс. хартий, для которых датировка уже проведена, а затем доверить алгоритму лингвистический поиск: как изменялись в них латинские формулировки и словоформы со временем.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

К примеру, «моим друзьям, живым и мертвым» — amicorum meorum vivorum et mortuorum — использовалась между 1150 и 1240 гг., но ни разу после. А «к французам и англичанам» — Francis et Anglicis — появляется лишь после потери англичанами северной Нормандии в 1204 г. Статистический анализ охватит не только столь очевидные случаи, но и более сложные изменения словаря и частоты употребления слов.

«Обучив» компьютер таким образом, ученые для пробы дали ему возможность датировать некоторые документы в изначальном наборе рукописей. Сравнив текст с паттернами изменений в языке хартий, выявленными на первом этапе, алгоритм выдал вполне приемлемые результаты.

В качестве эксперимента компьютер получил плохо сохранившийся манускрипт, имеющийся в библиотеке Brock University и отнесенный одними специалистами к XIII, а другими — к XIV в. Более внимательные исследования дали даты между 1235 и 1245 гг. — а компьютерный алгоритм обозначил 1246 г.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

По мнению авторов, этот результат — лишь начало. Аналогичный подход может быть использован для целого ряда других архивных изысканий. На основе словарных паттернов возможно предположить авторство документа и его происхождение и даже определить фальшивки.

По публикации MIT Technology Review / Physics arXiv Blog