Аннотация:
В своих предыдущих исследованиях мы обнаружили, что в европейских языках грамматическая неоднозначность наиболее частотных слов ведет себя несколько иначе, чем в более редких словах. В данном исследовании мы более подробно анализируем причины этого явления, уделяя особое внимание первой тысяче наиболее частотных токенов. Исследование современных систем снятия омонимии и синтаксического анализа показало, что всплеск разнообразия частей речи, который наблюдается в наиболее частотных слова, приводит к увеличению числа ошибок на выходе этих систем.
Ключевые слова:грамматическая неоднозначность, квантитативный
анализ, статистика распределения, русский язык.