RUS  ENG
Полная версия
ЖУРНАЛЫ // Вестник Санкт-Петербургского университета. Серия 10. Прикладная математика. Информатика. Процессы управления // Архив

Вестн. С.-Петербург. ун-та. Сер. 10. Прикл. матем. Информ. Проц. упр., 2019, том 15, выпуск 2, страницы 235–244 (Mi vspui404)

Эта публикация цитируется в 1 статье

Информатика

Semantic Textual Similarity on Brazilian Portuguese: An approach based on language-mixture models

[Семантическое сходство текстов на бразильском португальском языке: Подход, основанный на комбинировании нескольких языков]

A. Silvaa, A. Lozkinsb, L. R. Bertoldia, S. Rigoa, V. M. Bureb

a University of Vale do Rio dos Sinos, 950, Av. Unisinos, São Leopoldo, RS, 93020-190, Brazil
b St. Petersburg State University, 7-9, Universitetskaya nab., St. Petersburg, 199034, Russian Federation

Аннотация: В литературе исследование семантического текстового сходства (СТС) описывается как фундаментальная часть многих задач обработки естественного языка. Подходы СТС зависят от наличия и объема лексико-семантической базы. Существуют несколько попыток по улучшению лексико-семантической базы, и представлено большое количество приложений для английского языка. Лингвистическая база бразильского португальского, по сравнению с английской, не имеет одинаковой доступности в отношении семантических связей и содержания, что приводит к потере точности в задачах СТС. В настоящей работе описан подход, сочетающий лексико-семантические онтологические базы бразильского португальского и английского языков, для использования всех возможностей языковых отношений и создания комбинированной модели для измерения семантического текстового сходства. Предложенный подход проанализирован на известном и признанном наборе данных бразильского португальского языка СТС, который позволил выявить преимущества и недостатки комбинированной модели.

Ключевые слова: семантическое сходство текстов, обработка естественного языка, компьютерная лингвистика, онтологии.

УДК: 004.912

MSC: 68T50

Поступила: 18 ноября 2018 г.
Принята к печати: 15 марта 2019 г.

Язык публикации: английский

DOI: 10.21638/11701/spbu10.2019.207



Реферативные базы данных:


© МИАН, 2024