Магистрант факультета информационных технологий (ФИТ) НГУ Степан Гудков разработал программное обеспечение, которое позволяет автоматизировать процесс распознавания рукописных исторических документов, а именно — книг решений волостных судов, которые существовали в России в начале XX века. Работа направлена на ввод в научный оборот решений таких судов, в которых отражены многие аспекты жизни сибирских крестьян. Разработка является частью магистерской диссертации, которую Степан Гудков готовит под научным руководством Владимира Борисовича Барахнина, доктора технических наук, профессора кафедры общей информатики ФИТ НГУ.
В начале XX века среди крестьянского сословия в России были так называемые волостные суды, которые относились к гражданскому судопроизводству. Их решения записаны в толстых журналах, которые прошивались шнуром и скреплялись печатью. Они представляют собой кладезь информации — описание жизни и быта российских и сибирских крестьян предреволюционной эпохи.
– Хотя это и документы суда, но на самом деле это не про суд, это про жизнь в разнообразных её проявлениях. Знакомясь с решениями, мы имеем картину разных крестьянских занятий, узнаем, какая у них была повседневная жизнь, повседневные заботы, какие характеры и привычки. Все это разнообразие мы видим в решениях волостного суда. Они нам дают облик крестьянской России, которая потом ушла в течение XX века, когда страна стала совсем другой. Это фотографический портрет крестьянской России, – рассказал Алексей Кириллов, старший научный сотрудник Института истории СО РАН.
Так появилась идея сделать это знание доступным для широкого круга историков и интересующихся людей, причем не просто отобрать 100 решений, а оцифровать и распознать большое количество документов, представить их в понятном современному читателю виду, чтобы все это было легко и доступно.
– По моим оценкам, в начале XX века по всей России волостные суды в год выносили около 1 млн решений. Из них, конечно, сохранилась ничтожная часть. Так, в архивах по Сибири сейчас несколько десятков тысяч решений, а по всей стране, думаю, мы можем рассчитывать на сотни тысяч решений. Чтобы их ввести в научный оборот и начать изучать, их сначала нужно распознать и перевести в современный текст. Мы сейчас их вручную расшифровываем, что является очень трудоемким процессом. Могу привести пример: в ближайшее время мы выпустим две книги, в которых представлены несколько сотен решений волостных судов. На эту работу у нас ушло три года. Если мы поставим задачу распознать тексты всех решений, то, если это делать вручную, уйдет не один десяток лет. Применение же информационных технологий позволяет автоматизировать и значительно ускорить эту работу, – добавил Алексей Кириллов.
Историки обратились на Факультет информационных технологий НГУ с данной задачей. Чтобы рукописный исторический документ ввести в научный оборот, мало его просто оцифровать в виде картинки, он должен быть распознан в текстовом виде.
–Текст должен быть, как минимум, проиндексирован, из него должны быть извлечены все слова. Далее текст должен быть обработан, из него должны быть извлечены важнейшие общие термины, описывающие тематику того или иного решения; документ должен быть каталогизирован. Тогда можно будет собрать полноценную информационную систему, которая позволит специалистам и просто интересующимся людям знакомиться с решениями волостных судов. С чего здесь надо начать? Конечно, с перевода рукописного текста, с его распознавания, преобразуемого в машинно-обрабатываемый вид, – рассказал Владимир Барахнин.
Существующие системы распознавания текстов к таким документам не применимы в силу разных особенностей, поэтому необходимо было разработать алгоритм, который подходит для работы с рукописными документами.
При распознавании рукописных текстов специалисты сталкиваются с рядом задач, которые необходимо решить. Во-первых, журнал решений волостного суда представляет собой разграфлённые, в том числе и вертикально, страницы. Однако в реальности не всегда писали строго по колонкам, а нередко сплошным текстом по странице, что затрудняет понимание. Во-вторых, разные почерки. Несмотря на то, что волостную книгу, как правило, писал один писарь и имеется определённый объем документов, написанных одним почерком, тем не менее в разных книгах почерки разные. В-третьих, дореволюционная орфография все-таки отличается от современной. Наконец, не слишком высокая грамотность писарей, использование разнообразных сокращений, имен собственных — все это затрудняет распознавание и обработку текста.
Для решения задачи распознавания таких текстов разработчики НГУ применили алгоритмы машинного зрения, которые позволяют распознавать линии, отдельные символы и буквы.
– Система принимает на вход изображение страницы из книги решений волостных судов. Оно разбивается на несколько небольших фрагментов, каждый из которых делится на отдельные строки текста, для чего можно использовать нейросети вроде YOLO. После этого изображение строки нужно конвертировать в текст. Есть несколько путей: бежать по строке окном динамического размера – вырезать изображения букв и подавать их модели-распознавателю (можно использовать ансамбль свёрточных нейронных сетей); решать задачу преобразования последовательности (текста рукописного) в последовательность (текста печатного) с помощью свёрточно-рекуррентных нейросетей или сетей архитектуры трансформера, что требует большого количества вручную расшифрованных строк для обучения модели; использовать метод обучения с малым количеством обучающих образцов, который нами ещё не опробован и имеет безусловное преимущество, поскольку требует очень мало данных для обучения модели. Распознанный текст, конечно, будет содержать ошибки, поэтому требуется провести его постобработку: хотя бы сверить по словарям. В результате должен быть получен текстовый файл, содержащий распознанный текст, – пояснил Степан Гудков.
Сейчас создан алгоритм машинного зрения, помогающий обучать нейросети распознавать слова как набор символов, без осмысления и корректировки. Дальнейшая доработка алгоритма предполагает, чтобы, исходя из смысла и контекста, система предлагала возможные варианты написания, правки, на основании которых человек мог принять решение, какой вариант корректный.
– Дальнейшая обработка текста требует уже некоторого осмысления, побуквенное чтение не даёт идеальный вариант, возможны ошибки, сложности в распознании. Только ИТ-методами решить эту задачу будет сложно, необходимо написать приложение, которое, когда встречает незнакомые слова, подчёркивает их, отмечает для исправления, предлагая наиболее вероятные варианты. Поэтому необходимо подключить специалистов с гуманитарными образованием, – добавил Владимир Барахнин.
В перспективе предполагается создать полноценную информационную систему с поисковыми интерфейсами. В такой системе каждый документ снабжён всеми метаданными, из него извлечены все слова, он машиночитаемый. Система позволяет вести контекстный поиск, осуществлять выборку по разным критериям — по селению, персонам, категориям дел и т.д.
В дальнейшем данная разработка может быть применима для разбора любых рукописных документов из архивов — писем, дневников и т.д., созданных в дореволюционный период — с середины 19 века, когда появился современный русский язык, и до 1917 года.
Пресс-служба Новосибирского государственного университета
- Войдите или зарегистрируйтесь, чтобы отправлять комментарии
