RUS  ENG
Полная версия
ЖУРНАЛЫ // Вестник Санкт-Петербургского университета. Серия 10. Прикладная математика. Информатика. Процессы управления // Архив

Вестн. С.-Петербург. ун-та. Сер. 10. Прикл. матем. Информ. Проц. упр., 2024, том 20, выпуск 3, страницы 391–403 (Mi vspui634)

Информатика

Extending the applicability of the Zipf's laws to the sequences of byte data

[Расширение применимости закона Ципфа для произвольных последовательностей битовых данных]

S. L. Sergeev, I. S. Blekanov, F. V. Ezhov, N. A. Tarasov

St. Petersburg State University, 7-9, Universitetskaya nab., St. Petersburg, 199034, Russian Federation

Аннотация: Доказано, что закон Ципфа справедлив для самых разнообразных статистических распределений, начиная с его первоначальной идеи о статистической закономерности, связанной с его применением для обработки естественных языков, и заканчивая его более поздними адаптациями для экономической, социальной и многих других предметных областей, в которых было установлено, что он работает практически повсеместно. Во всех этих случаях авторы различных исследований обсуждают применимость закона Ципфа в терминах семантически сложных структур. Сделан следующий шаг в этом вопросе и показано, как такой закон может работать для анализа данных, в том числе для последовательностей байтовых данных, полученных из разных источников. Используя базовую методологию разбиения на блоки, можно доказать, что закон Ципфа справедлив для многих типов необработанных последовательностей байтовых данных, в частности во всех случаях для «средней точки» данных, где они присутствуют со степенью достоверности более 90 %. В заключение приводятся рассуждения о последствиях и возможных вариантах использования полученных результатов.

Ключевые слова: законы Ципфа, битовые данные, фрагментация данных, частотный анализ.

УДК: 004.93

MSC: 93B03

Поступила: 19 мая 2024 г.
Принята к печати: 25 июня 2024 г.

Язык публикации: английский

DOI: 10.21638/spbu10.2024.307



© МИАН, 2025