RUS  ENG
Полная версия
ЖУРНАЛЫ // Труды института системного программирования РАН // Архив

Труды ИСП РАН, 2015, том 27, выпуск 1, страницы 151–172 (Mi tisp117)

Эта публикация цитируется в 1 статье

Применение временных рядов в задаче фоновой идентификации пользователей на основе анализа их работы с текстовыми данными

В. Ю. Королев, А. Ю. Корчагин, И. В. Машечкин, М. И. Петровский, Д. В. Царёв

Факультет вычислительной математики и кибернетики, Московский государственный университет имени М.В. Ломоносова

Аннотация: В статье представлен новый подход идентификации пользователя на основе анализа его поведения при работе с текстовой информацией. Для описания поведения пользователя предлагается использовать содержимое текстовых документов, к которым он обращался. Структурированное представление рассматриваемой поведенческой информации осуществляется на основе отображения содержимого электронных документов в тематическое пространство пользователя, формируемое с использованием неотрицательной матричной факторизации. Веса выделенных тематик в документе характеризуют тематическую направленность пользователя во время работы с данным документом. Изменение значений весов тематик во времени формирует многомерный временной ряд, описывающий историю поведения пользователя при работе с текстовыми данными. Построение прогноза такого временного ряда позволит осуществлять идентификацию данного пользователя на основе оценки отклонений наблюдаемой тематической направленности пользователя от спрогнозированных значений. В рамках предложенного подхода был разработан собственный оригинальный метод прогнозирования временных рядов, основанный на ортонормированной неотрицательной матричной факторизации (ОНМФ). Важно отметить, что ранее методы неотрицательной матричной факторизации не использовался для решения задачи прогнозирования временных рядов. Проведённое экспериментальное исследование на примере реальной корпоративной переписки пользователей, сформированной из набора данных Enron, показало применимость предложенного подхода идентификации пользователя. Кроме того, эксперименты с применением других популярных на сегодняшний день методами прогнозирования показали превосходство разработанного метода на основе ОНМФ по качеству классификации тематических характеристик пользователя. Также в работе исследовались два различных подхода оценки отклонений: абсолютная оценка и оценка p-значения. Эксперименты показали, что оба рассмотренные подхода расчёта оценки отклонения временной точки от прогноза применимы в предложенном подходе идентификации пользователя.

Ключевые слова: компьютерная безопасность, идентификация пользователя, тематическое моделирование, ортонормированная неотрицательная матричная факторизация, прогнозирование временных рядов.

DOI: 10.15514/ISPRAS-2015-27(1)-8



Реферативные базы данных:


© МИАН, 2024