RUS  ENG
Полная версия
ЖУРНАЛЫ // Информационные технологии и вычислительные системы // Архив

ИТиВС, 2020, выпуск 4, страницы 111–124 (Mi itvs433)

ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ТЕКСТОВ

Учет неизвестных слов в вероятностной тематической модели

С. Н. Карповичa, А. В. Смирновb, Н. Н. Тесляb

a АО "Олимп", г. Москва, Россия
b Федеральное государственное бюджетное учреждение науки «Санкт-Петербургский Федеральный исследовательский центр Российской академии наук», Россия

Аннотация: В работе рассмотрены подходы к учету неизвестных слов в языковых моделях алгоритмов обработки естественного языка. Предложен метод учета неизвестных слов в вероятностном тематическом моделировании, который позволяет определить вероятность новизны документа без обновления параметров модели. Тематические модели рассчитывают вероятностную оценку отнесения слова к темам. Матрица вероятностных отношений слово тема, заполнена апостериорными значениями вероятностей слов, введя в модель понятие штрафа за неизвестность или априорную оценку вероятности для неизвестных слов, можем рассчитать вероятностную оценку новизны документа. Разработан программный прототип метода позволяющий рассчитывать вероятность новизны документа. Проведены эксперименты на корпусе текстов SCTM-ru, демонстрирующие возможности метода для классификации коллекций и потоков текстовых документов, содержащих неизвестные слова, отражающие влияние неизвестных слов на тему документов, сравнивающие результаты классификации тематической модели и модели классификатора.

Ключевые слова: вероятностное тематическое моделирование, обработка текста на естественном языке, учет неизвестных слов, новизна текстовых документов.

DOI: 10.14357/20718632200410



Реферативные базы данных:


© МИАН, 2024