RUS  ENG
Полная версия
ЖУРНАЛЫ // Информатика и автоматизация // Архив

Тр. СПИИРАН, 2017, выпуск 52, страницы 51–69 (Mi trspy944)

Эта публикация цитируется в 4 статьях

Методы управления и обработки информации

Подход к проведению классификации текстов на основании возрастных групп их адресатов

А. В. Глазкова

Тюменский государственный университет (ТюмГУ)

Аннотация: В статье рассматривается новый подход к выполнению классификации текстов, учитывающий наличие различных типов классификационных признаков (бинарных, номинальных, порядковых и интервальных). Особенность представленного подхода состоит в поэтапном проведении классификации, которое дает возможность не приводить разнотипные признаки, характеризующие текст, к единому диапазону. Также в статье предлагается набор классификационных признаков для проведения классификации русскоязычных текстов на основании их предполагаемой возрастной аудитории.
В работе описывается вычислительный эксперимент с использованием текстов, включенных в Национальный корпус русского языка. Выборка включает в себя заведомо качественные и максимально разнообразные тексты, написанные на русском языке. Документы, входящие в состав рассматриваемой выборки, разделены в соответствии с мнениями экспертов-лингвистов на две категории — взрослые и детские. Таким образом, для обучения и тестирования использовались тексты, размеченные экспертами.
В статье приведены значения точности классификации текстов, полученные в результате проведения серии экспериментов по автоматическому определению возрастных категорий адресатов текста (для кого написан текст — для детей или для взрослых).

Ключевые слова: извлечение информации; классификация текстов; обработка естественного языка; признаки текста.

УДК: 004.912

DOI: 10.15622/sp.52.3



Реферативные базы данных:


© МИАН, 2024