RUS  ENG
Полная версия
ЖУРНАЛЫ // Информатика и автоматизация // Архив

Тр. СПИИРАН, 2017, выпуск 50, страницы 190–208 (Mi trspy932)

Эта публикация цитируется в 1 статье

Теоретическая и прикладная математика

Аппроксимация распределений частот буквенных биграмм текста для идентификации букв

Ю. А. Котов

Новосибирский государственный технический университет (НГТУ)

Аннотация: В статье рассмотрены особенности применения методов частотного упорядочивания и аппроксимации для решения задачи идентификации знаков текста. Определены условия реализации метода Якобсена для получения наименьшей погрешности идентификации. Предложен метод аппроксимации одномерных и двумерных распределений частот знаковых биграмм текста и буквенных биграмм эталона языка текста. Приведены экспериментальные данные о погрешностях метода Якобсена и предложенного метода аппроксимации для русскоязычных текстов.
Погрешность предложенного метода меньше, чем у метода Якобсена. Метод может быть использован для идентификации знаков текста любого языка, для которого существует эталонное распределение частот буквенных биграмм.

Ключевые слова: аппроксимация; идентификация; буква; биграмма; простая замена; шифр.

УДК: 519.6

DOI: 10.15622/sp.50.8



Реферативные базы данных:


© МИАН, 2024