RUS  ENG
Полная версия
ЖУРНАЛЫ // Компьютерные исследования и моделирование // Архив

Компьютерные исследования и моделирование, 2015, том 7, выпуск 2, страницы 329–345 (Mi crm191)

Эта публикация цитируется в 2 статьях

МОДЕЛИ В ФИЗИКЕ И ТЕХНОЛОГИИ

Эффективный алгоритм сравнения документов в формате LATEX

К. В. Чувилин

Московский физико-технический институт (ГУ), Россия, 141700, Московская область, г. Долгопрудный, Институтский переулок, д. 9

Аннотация: Рассматривается задача построения различий, возникающих при редактировании документов в формате LATEX. Каждый документ представляется в виде синтаксического дерева, узлы которого называются токенами. Строится минимально возможное текстовое представление документа, не меняющее синтаксическое дерево. Весь текст разбивается на фрагменты, границы которых соответствуют токенам. С помощью алгоритма Хиршберга строится отображение последовательности текстовых фрагментов изначального документа в аналогичную последовательность отредактированного документа, соответствующее минимальному редактирующему расстоянию. Строится отображение символов текстов, соответствующее отображению последовательностей текстовых фрагментов. В синтаксических деревьях выделяются токены такие, что символы соответствующих фрагментов текста при отображении либо все не меняются, либо все удаляются, либо все добавляются. Для деревьев, образованных остальными токенами, строится отображение с помощью алгоритма Zhang-Shasha.

Ключевые слова: автоматизация, анализ текста, лексема, машинное обучение, метрика, редактирующее расстояние, синтаксическое дерево, токен, LATEX.

УДК: 519.226

Поступила в редакцию: 16.07.2013
Исправленный вариант: 04.02.2015

DOI: 10.20537/2076-7633-2015-7-2-329-345



© МИАН, 2024