RUS  ENG
Полная версия
ЖУРНАЛЫ // Труды института системного программирования РАН // Архив

Труды ИСП РАН, 2023, том 35, выпуск 5, страницы 193–214 (Mi tisp823)

Извлечение именованных сущностей из рецензий к исходному коду

В. В. Качановab, А. С. Хитроваca, С. И. Марковa

a Институт системного программирования им. В.П. Иванникова РАН
b Московский физико-технический институт
c Московский государственный университет имени М. В. Ломоносова

Аннотация: В данной статье рассматривается задача извлечения именованных сущностей из рецензий исходного кода. В работе приводится сравнительный анализ существующих подходов и предлагаются собственные методы для улучшения качества решения задачи. Предложенные и реализованные улучшения включают в себя: методы борьбы с дисбалансом данных, улучшения токенизации входных данных, использование больших массивов неразмеченных данных и применение дополнительных бинарных классификаторов. Для оценки качества собран и размечен вручную новый набор из 3000 пользовательских рецензий. Показано, что предложенные улучшения позволяют значительно увеличить показатели метрик качества, вычисляемых как на уровне токенов (+22%), так и на уровне сущностей целиком (+13%).

Ключевые слова: машинное обучение, извлечение именованных сущностей, набор данных

DOI: 10.15514/ISPRAS-2023-35(5)-13



© МИАН, 2024