Аннотация:
Задача классификации текстов относится к категории Data Mining. В результате ее решения выделяются признаки, которые характеризуют категории объектов исследуемого набора текстов. По этим признакам новый объект можно отнести к той или иной категории. В работе представлена реализация нормативно-правовых актов, которые составляются по правилам юридической техники, имеют определенный вид, отличаются от привычного всем стиля написания и образуют иерархическую структуру. В настоящее время в справочно-правовых системах отсутствует инструмент классификации. Категориями выступают 16 основных направлений деятельности Правительства Российской Федерации. В качестве текстов, оценивающих категории, используются нормативно-правовые акты Российской Федерации, регулирующие отношения в соответствующих основных направлениях деятельности. Описать задачу классификации текстов целесообразно следующим образом: существует множество категорий; существует набор текстов по каждой категории; имеется текстовый файл; необходимо установить категорию текстового файла. Этапы реализации: анализ входящего текста; определение и обучение категорий; сравнение входящего текста с конкретными категориями. Используемые средства: как программные средства для решения задачи были выбраны язык Java и средства разработки Eclipse, поскольку потенциально объем словарей лингвистической базы данных может быть очень большим, была выбрана СУБД MS SQL Server. В работе поставленная задача решена, приложение готово к работе, частотные списки категорий составлены и хранятся в базе данных. Целью дальнейшей работы является доработка приложения в целях обработки входящей корреспонденции Федеральной антимонопольной службы. Библиогр. 9 назв. Ил. 4.
Ключевые слова:частотный анализ, классификация текста, анализ текста, Data mining, нормативный правовой акт.