Аннотация:
Рассматривается задача распознавания сканированных
математических текстов с повторяющимися формулами
либо формулами с общими фрагментами. Описывается метод сравнения результатов
распознавания, позволяющий выделять идентичные элементы из множества вариантов
распознавания. Метод основывается на вычислении расстояний Левенштейна между
отдельными фрагментами с учетом дополнительных параметров. Предложенный метод отличается от обычного метода
тем, что при наличии неопределенностей в процессе сравнения участвуют все возможные
варианты распознавания, представленные в виде пары символ–вес. В случае
нелинейных формул в сравнении участвуют дополнительные числовые параметры, задающие
расположение отдельных символов на плоскости. Такое сравнение позволит сгруппировать формулы, а полученные данные будут полезны
при принятии решений как человеком, так и программой. Использование данного
метода упростит процесс ручного исправления ошибок,
который будет основываться на динамическом управлении промежуточными результатами
в процессе тесного человеко-машинного взаимодействия.
Ключевые слова:расстояние Левенштейна, вес замены, вес перемещения, множество вариантов распознавания, формулы с общими фрагментами.