RUS  ENG
Полная версия
ЖУРНАЛЫ // Компьютерные исследования и моделирование // Архив

Компьютерные исследования и моделирование, 2012, том 4, выпуск 4, страницы 871–883 (Mi crm536)

Эта публикация цитируется в 2 статьях

МОДЕЛИ В ФИЗИКЕ И ТЕХНОЛОГИИ

Использование синтаксических деревьев для автоматизации коррекции документов в формате LATEX

К. В. Чувилин

Московский физико-технический институт (ГУ), 141700, Московская область, г. Долгопрудный, Институтский переулок, 9.

Аннотация: Рассматривается задача автоматизации коррекции документов в формате LATEX. Каждый документ представляется в виде синтаксического дерева. С помощью модифицированного алгоритма Zhang-Shasha строится отображение вершин дерева изначального документа в вершины дерева отредактированного документа, соответствующее минимальному редактирующему расстоянию. Отображения вершины в вершину составляют обучающую выборку, по которой генерируются правила замены для автоматической коррекции. Для каждого правила собирается статистика его применимости к отредактированным документам. На ее основе производится оценка качества правил и их улучшение.

Ключевые слова: автоматизация, анализ текста, лексема, машинное обучение, метрика, обучение с подкреплением, регулярное выражение, редактирующее расстояние, синтаксическое дерево, токен, LATEX.

УДК: 519.226

Поступила в редакцию: 20.07.2012

DOI: 10.20537/2076-7633-2012-4-4-871-883



© МИАН, 2024