RUS  ENG
Полная версия
ЖУРНАЛЫ // Информационные технологии и вычислительные системы // Архив

ИТиВС, 2019, выпуск 3, страницы 41–56 (Mi itvs352)

РАСПОЗНАВАНИЕ ОБРАЗОВ

Методика и результаты сравнительного анализа четырех методов идентификации букв текстов

Ю. А. Котов

Новосибирский государственный технический университет, г. Новосибирск, Россия

Аннотация: В статье приведены результаты сравнения четырех известных частотных методов идентификации букв текстов, необходимые для прикладного решения задач криптоанализа, стеганографии и задач общего анализа текстов, известных в информатике под названием text mining. Для проведения сравнения и получения полной и унифицированной характеристики методов предложена методика оценки, которая включает измерение трех ошибок идентификации и формирование интегральной характеристики на их основе, названной добротностью метода. По данной методике проведено экспериментальное сравнение и качественный анализ одного униграммного и трех биграммных методов идентификации букв текстов. Сравнение выполнено на представительных выборках фрагментов русскоязычных текстов. Определены качественные и количественные особенности методов, границы их эффективного применения, взаимосвязь с типом и объемом обрабатываемого текста.

Ключевые слова: текст, буква, униграмма, биграмма, идентификация, простая замена, шифр, анализ текста.

DOI: 10.14357/20718632190304



© МИАН, 2024