Аннотация:
При исследовании криптографических качеств алгоритмов защиты информации важным моментом является построение теоретических и экспериментальных моделей источников сообщений. В данной статье проводится статистический анализ свойств лексических и $n$-граммных моделей русского языка на основе новостного текстового корпуса. Создан специализированный корпус из новостных статей последних лет политической направленности, отражающий узкую область употребления языка. Составлены словари токенов и $n$-грамм, найдены величины покрытия этих словарей, а также значения энтропии. Проведена лемматизация исходного текстового корпуса и экстраполяция роста объёма словарей в зависимости от увеличения размера корпуса.