RUS  ENG
Полная версия
ЖУРНАЛЫ // Ученые записки Казанского университета. Серия Физико-математические науки // Архив

Учен. зап. Казан. ун-та. Сер. Физ.-матем. науки, 2013, том 155, книга 4, страницы 16–23 (Mi uzku1237)

Проверка закона Хипса по данным корпуса Google Books Ngram

В. В. Бочкаревa, Э. Ю. Лернерb, А. В. Шевляковаc

a Кафедра радиофизики, Казанский (Приволжский) федеральный университет, г. Казань, Россия
b Кафедра анализа данных и исследования операций, Казанский (Приволжский) федеральный университет, г. Казань, Россия
c Кафедра английского языка для естественно-научных специальностей, Казанский (Приволжский) федеральный университет, г. Казань, Россия

Аннотация: Работа посвящена проверке выполнения эмпирического закона Хипса в европейских языках на материале корпуса текстов Google Books Ngram. Показано, что закон Хипса выполняется лишь для текстов ограниченного объёма и относящихся к небольшому историческому интервалу; показатель Хипса убывает со временем, а также испытывает значительные колебания с характерными временами 60–100 лет. В рамках простой вероятностной модели порождения текста рассмотрена связь между распределением частот словоупотребления и ожидаемой зависимостью числа уникальных слов в тексте от объёма текста. Эта модель даёт объяснение наблюдаемого нисходящего тренда показателя Хипса.

Ключевые слова: закон Хипса, закон Ципфа, вероятностные модели текста, корпус Google Books Ngram.

УДК: 81.32+519.257+519.246.2

Поступила в редакцию: 17.10.2013



© МИАН, 2024