RUS  ENG
Полная версия
ЖУРНАЛЫ // Чебышевский сборник // Архив

Чебышевский сб., 2022, том 23, выпуск 2, страницы 151–160 (Mi cheb1182)

Эта публикация цитируется в 1 статье

Построение и анализ моделей русского языка в связи с исследованиями криптографических алгоритмов

А. Г. Малашина, А. Б. Лось

Национальный исследовательский университет «Высшая школа экономики» (г. Москва)

Аннотация: При исследовании криптографических качеств алгоритмов защиты информации важным моментом является построение теоретических и экспериментальных моделей источников сообщений. В данной статье проводится статистический анализ свойств лексических и $n$-граммных моделей русского языка на основе новостного текстового корпуса. Создан специализированный корпус из новостных статей последних лет политической направленности, отражающий узкую область употребления языка. Составлены словари токенов и $n$-грамм, найдены величины покрытия этих словарей, а также значения энтропии. Проведена лемматизация исходного текстового корпуса и экстраполяция роста объёма словарей в зависимости от увеличения размера корпуса.

Ключевые слова: словари n-грамм, энтропия $n$-грамм, осмысленные тексты.

УДК: 519.722

Поступила в редакцию: 30.09.2020
Принята в печать: 22.06.2022

DOI: 10.22405/2226-8383-2022-23-2-151-160



© МИАН, 2024