Эта публикация цитируется в
1 статье
Theory of data
Разметка корпусов текстов по тональности и наличию иронии в рамках проекта гражданской науки
И. В. Парамонов,
А. Ю. Полетаев Ярославский государственный университет им. П. Г. Демидова, ул. Советская, д. 14, г. Ярославль, 150003 Россия
Аннотация:
Статья посвящена построению корпуса предложений, размеченных по общей тональности на 4 класса (положительный, отрицательный, нейтральный, смешанный), корпуса фразеологизмов, размеченных по тональности на 3 класса (положительный, отрицательный, нейтральный), и корпуса предложений, размеченных по наличию или отсутствию иронии. Разметку проводили волонтёры в рамках проекта «Готовим тексты алгоритмам» на портале «Люди науки».
На основе имеющихся знаний о предметной области для каждой из задач были составлены инструкции для разметчиков. Также была выработана методика статистической обработки результатов разметки, основанная на анализе распределений и показателей согласия оценок, выставленных разными разметчиками. Для разметки предложений по наличию иронии и фразеологизмов по тональности показатели согласия оказались достаточно высокими (доля полного совпадения 0.60–0.99), при разметке предложений по общей тональности согласие оказалось слабым (доля полного совпадения 0.40), по-видимому, из-за более высокой сложности задачи. Также было показано, что результаты работы автоматических алгоритмов анализа тональности предложений улучшаются на 12–13 % при использовании корпуса, относительно предложений которого сошлись мнения всех разметчиков (3–5 человек), по сравнению с корпусом с разметкой только одним волонтёром.
Ключевые слова:
анализ тональности, текстовый корпус, статистический анализ, показатели согласия, гражданская наука.
УДК:
004.912
MSC: 68T50 Поступила в редакцию: 03.02.2023
Исправленный вариант: 24.02.2023
Принята в печать: 27.02.2023
DOI:
10.18255/1818-1015-2023-1-86-100