Аннотация:
Рассматривается задача автоматизации коррекции документов в формате LATEX. Каждый документ представляется в виде синтаксического дерева. С помощью модифицированного алгоритма Zhang-Shasha строится отображение вершин дерева изначального документа в вершины дерева отредактированного документа, соответствующее минимальному редактирующему расстоянию. Отображения вершины в вершину составляют обучающую выборку, по которой генерируются правила замены для автоматической коррекции. Для каждого правила собирается статистика его применимости к отредактированным документам. На ее основе производится оценка качества правил и их улучшение.
Ключевые слова:автоматизация, анализ текста, лексема, машинное обучение, метрика, обучение с подкреплением, регулярное выражение, редактирующее расстояние, синтаксическое дерево, токен, LATEX.