В. В. Качанов, А. С. Хитрова, С. И. Марков, “Извлечение именованных сущностей из рецензий к исходному коду”, Труды ИСП РАН, 2023, том 35, выпуск 5,страницы 193

Извлечение именованных сущностей из рецензий к исходному коду

В. В. Качанов^ab, А. С. Хитрова^ca, С. И. Марков^a

^a Институт системного программирования им. В.П. Иванникова РАН
^b Московский физико-технический институт
^c Московский государственный университет имени М. В. Ломоносова

Аннотация: В данной статье рассматривается задача извлечения именованных сущностей из рецензий исходного кода. В работе приводится сравнительный анализ существующих подходов и предлагаются собственные методы для улучшения качества решения задачи. Предложенные и реализованные улучшения включают в себя: методы борьбы с дисбалансом данных, улучшения токенизации входных данных, использование больших массивов неразмеченных данных и применение дополнительных бинарных классификаторов. Для оценки качества собран и размечен вручную новый набор из 3000 пользовательских рецензий. Показано, что предложенные улучшения позволяют значительно увеличить показатели метрик качества, вычисляемых как на уровне токенов (+22%), так и на уровне сущностей целиком (+13%).

Ключевые слова: машинное обучение, извлечение именованных сущностей, набор данных

DOI: 10.15514/ISPRAS-2023-35(5)-13