Е. Д. Заболотский, “Компьютерная реализация тематической классификации нормативно-правовых актов”, Вестн. С.-Петербург. ун-та. Сер. 10. Прикл. матем. Информ. Проц. упр., 2014, выпуск 3,страницы 99

Информатика

Компьютерная реализация тематической классификации нормативно-правовых актов

Е. Д. Заболотский

Санкт-Петербургский государственный университет, Российская Федерация, 199034, Санкт-Петербург, Университетская наб., 7/9

Аннотация: Задача классификации текстов относится к категории Data Mining. В результате ее решения выделяются признаки, которые характеризуют категории объектов исследуемого набора текстов. По этим признакам новый объект можно отнести к той или иной категории. В работе представлена реализация нормативно-правовых актов, которые составляются по правилам юридической техники, имеют определенный вид, отличаются от привычного всем стиля написания и образуют иерархическую структуру. В настоящее время в справочно-правовых системах отсутствует инструмент классификации. Категориями выступают 16 основных направлений деятельности Правительства Российской Федерации. В качестве текстов, оценивающих категории, используются нормативно-правовые акты Российской Федерации, регулирующие отношения в соответствующих основных направлениях деятельности. Описать задачу классификации текстов целесообразно следующим образом: существует множество категорий; существует набор текстов по каждой категории; имеется текстовый файл; необходимо установить категорию текстового файла. Этапы реализации: анализ входящего текста; определение и обучение категорий; сравнение входящего текста с конкретными категориями. Используемые средства: как программные средства для решения задачи были выбраны язык Java и средства разработки Eclipse, поскольку потенциально объем словарей лингвистической базы данных может быть очень большим, была выбрана СУБД MS SQL Server. В работе поставленная задача решена, приложение готово к работе, частотные списки категорий составлены и хранятся в базе данных. Целью дальнейшей работы является доработка приложения в целях обработки входящей корреспонденции Федеральной антимонопольной службы. Библиогр. 9 назв. Ил. 4.

Ключевые слова: частотный анализ, классификация текста, анализ текста, Data mining, нормативный правовой акт.

УДК: 51.77

Поступила: 3 апреля 2013 г.