A. Silva, A. Lozkins, L. R. Bertoldi, S. Rigo, V. M. Bure, “Semantic Textual Similarity on Brazilian Portuguese: An approach based on language-mixture models”, Вестн. С.-Петербург. ун-та. Сер. 10. Прикл. матем. Информ. Проц. упр., 2019, том 15, выпуск 2,страницы 235

Эта публикация цитируется в 1 статье

Информатика

Semantic Textual Similarity on Brazilian Portuguese: An approach based on language-mixture models

[Семантическое сходство текстов на бразильском португальском языке: Подход, основанный на комбинировании нескольких языков]

A. Silva^a, A. Lozkins^b, L. R. Bertoldi^a, S. Rigo^a, V. M. Bure^b

^a University of Vale do Rio dos Sinos, 950, Av. Unisinos, São Leopoldo, RS, 93020-190, Brazil
^b St. Petersburg State University, 7-9, Universitetskaya nab., St. Petersburg, 199034, Russian Federation

Аннотация: В литературе исследование семантического текстового сходства (СТС) описывается как фундаментальная часть многих задач обработки естественного языка. Подходы СТС зависят от наличия и объема лексико-семантической базы. Существуют несколько попыток по улучшению лексико-семантической базы, и представлено большое количество приложений для английского языка. Лингвистическая база бразильского португальского, по сравнению с английской, не имеет одинаковой доступности в отношении семантических связей и содержания, что приводит к потере точности в задачах СТС. В настоящей работе описан подход, сочетающий лексико-семантические онтологические базы бразильского португальского и английского языков, для использования всех возможностей языковых отношений и создания комбинированной модели для измерения семантического текстового сходства. Предложенный подход проанализирован на известном и признанном наборе данных бразильского португальского языка СТС, который позволил выявить преимущества и недостатки комбинированной модели.

Ключевые слова: семантическое сходство текстов, обработка естественного языка, компьютерная лингвистика, онтологии.

УДК: 004.912

MSC: 68T50

Поступила: 18 ноября 2018 г.
Принята к печати: 15 марта 2019 г.

Язык публикации: английский

DOI: 10.21638/11701/spbu10.2019.207