Аннотация:
В настоящей работе мы предлагаем новую формулу сложности текста, направленную на оценку сложности русских школьных учебников. В качестве данных для обучения и валидации мы использовали аннотированный Российский академический корпус, содержащий более 5 миллионов токенов, а также использовали в исследовании методы машинного обучения. Значения четырех параметров в каждом из 154 текстов, использованных для исследования, были измерены с помощью инструментов библиотеки Spacy. Сравнительный анализ новой и существующих формул сложности показывает, что различия между ними показательны, и новые формулы дают более точные результаты. Это исследование расширяет наше понимание взаимозависимости между частотой слов и сложностью текста и обеспечивает основу для эффективного применения лексических частотных моделей в исследованиях сложности дискурса. Результаты могут быть использованы авторами учебников и разработчиками тестов для выбора и модификации текстов для определенных категорий читателей. Другие области применения включают дизайн веб-сайтов, опросы и семантический анализ социальных сетей. Библ. – 45 назв.
Ключевые слова:формула читабельности текста, русский язык, школьные учебники.