RUS  ENG
Полная версия
ЖУРНАЛЫ // Моделирование и анализ информационных систем // Архив

Модел. и анализ информ. систем, 2023, том 30, номер 1, страницы 86–100 (Mi mais792)

Эта публикация цитируется в 1 статье

Theory of data

Разметка корпусов текстов по тональности и наличию иронии в рамках проекта гражданской науки

И. В. Парамонов, А. Ю. Полетаев

Ярославский государственный университет им. П. Г. Демидова, ул. Советская, д. 14, г. Ярославль, 150003 Россия

Аннотация: Статья посвящена построению корпуса предложений, размеченных по общей тональности на 4 класса (положительный, отрицательный, нейтральный, смешанный), корпуса фразеологизмов, размеченных по тональности на 3 класса (положительный, отрицательный, нейтральный), и корпуса предложений, размеченных по наличию или отсутствию иронии. Разметку проводили волонтёры в рамках проекта «Готовим тексты алгоритмам» на портале «Люди науки».
На основе имеющихся знаний о предметной области для каждой из задач были составлены инструкции для разметчиков. Также была выработана методика статистической обработки результатов разметки, основанная на анализе распределений и показателей согласия оценок, выставленных разными разметчиками. Для разметки предложений по наличию иронии и фразеологизмов по тональности показатели согласия оказались достаточно высокими (доля полного совпадения 0.60–0.99), при разметке предложений по общей тональности согласие оказалось слабым (доля полного совпадения 0.40), по-видимому, из-за более высокой сложности задачи. Также было показано, что результаты работы автоматических алгоритмов анализа тональности предложений улучшаются на 12–13 % при использовании корпуса, относительно предложений которого сошлись мнения всех разметчиков (3–5 человек), по сравнению с корпусом с разметкой только одним волонтёром.

Ключевые слова: анализ тональности, текстовый корпус, статистический анализ, показатели согласия, гражданская наука.

УДК: 004.912

MSC: 68T50

Поступила в редакцию: 03.02.2023
Исправленный вариант: 24.02.2023
Принята в печать: 27.02.2023

DOI: 10.18255/1818-1015-2023-1-86-100



© МИАН, 2024