Д. А. Морозов, И. А. Смаль, Т. А. Гарипов, А. В. Глазкова, “Ключевые слова, морфемные разборы и синтаксические деревья в задаче оценки сложности текста”, Модел. и анализ информ. систем, 2024, том 31, номер 2,страницы 206

Artificial intelligence

Ключевые слова, морфемные разборы и синтаксические деревья в задаче оценки сложности текста

Д. А. Морозов^a, И. А. Смаль^a, Т. А. Гарипов^a, А. В. Глазкова^b

^a Новосибирский национальный исследовательский государственный университет, Новосибирск, Россия
^b Тюменский государственный университет, Тюмень, Россия

Аннотация: Задача оценки сложности текста является актуальной прикладной задачей с потенциальным применением при составлении юридических документов, редактуре учебников и подборе книг для внеклассного чтения. Способы формирования признакового описания при автоматической оценке сложности текста достаточно разнообразны. Ранние подходы опирались на легко вычислимые величины, такие как средняя длина предложения или среднее число слогов в слове. С развитием алгоритмов обработки естественного языка расширяется и пространство используемых признаков. В рамках настоящей работы мы исследовали три группы признаков: 1) автоматически генерируемые ключевые слова, 2) сведения об особенностях морфемного разбора слов и 3) информацию о разнообразии, разветвлённости и глубине синтаксических деревьев. Для генерации ключевых слов использован алгоритм RuTermExtract, для генерации морфемных разборов — свёрточная нейросетевая модель, для генерации синтаксических деревьев — модель Stanza, обученная на корпусе SynTagRus. Мы провели сравнение на материале четырёх различных моделей машинного обучения и четырёх аннотированных русскоязычных корпусов текстов. Использованные корпусы различаются как по домену, так и по парадигме разметки, благодаря чему полученные результаты объективнее отражают реальную связь характеристик и сложности текста. Использование ключевые слова показало в среднем результат хуже, чем использование тематических маркеров, получаемых при помощи латентного размещения Дирихле. Морфемные характеристики оказались в большинстве ситуаций эффективнее ранее описанных способов оценки лексической сложности текста: учёта частотности слов и встречаемости словообразовательных паттернов. Использование обширного набора синтаксических признаков позволило в большинстве случаев улучшить качество работы нейросетевых моделей в сравнении с ранее описанным набором.

Ключевые слова: сложность текста, генерация ключевых слов, генерация морфемных разборов, синтаксические деревья.

УДК: 004.912

MSC: 68T50

Поступила в редакцию: 27.02.2024
Исправленный вариант: 29.03.2024
Принята в печать: 08.05.2024

DOI: 10.18255/1818-1015-2024-2-206-220