S. V. Znamenskij, “Stable assessment of the quality of similarity algorithms of character strings and their normalizations”, Программные системы: теория и приложения, 2018, том 9, выпуск 4,страницы 561

Математические основы программирования

Stable assessment of the quality of similarity algorithms of character strings and their normalizations

[Устойчивая оценка качества алгоритмов сходства символьных строк и их нормализаций]

S. V. Znamenskij

Ailamazyan Program Systems Institute of Russian Academy of Sciences

Аннотация: Выбор средств поиска скрытой общности в данных новой природы требует устойчивых и воспроизводимых сравнительных оценок качества абстрактных алгоритмов близости символьных строк. Обычные оценка на основе искусственно сгенерированных или вручную размеченных тестов существенно разнятся, надёжнее оценивая метод этой искусственной генерации по отношению к алгоритмам сходства, а оценки на базе данных пользователей не могут быть точно воспроизведены.
Предложена простая, прозрачная, объективная и воспроизводимая численная оценка качества метрики на строках. Используются параллельные тексты переводов книг на разные языки. Качество меры оценивается процентом ошибок в возможных различных попытках определения перевода данного абзаца среди двух абзацев книги на другом языке, один из которых действительно является переводом. Устойчивость оценок верифицируется независимостью от выбора книги и пары языков.
Численный эксперимент устойчиво отранжировал по качеству абстрактные алгоритмы сравнения символьных строк и показал сильную зависимость от выбора нормализации.

Ключевые слова и фразы: сходство строк, анализ данных, метрика подобия, метрика расстояния, числовая оценка, оценка качества.

УДК: 519.652.3

Поступила в редакцию: 17.04.2018
03.12.2018
Подписана в печать : 28.12.2018

Язык публикации: английский

DOI: 10.25209/2079-3316-2018-9-4-561-578