Д. А. Усталов, М. Л. Гольдштейн, “Распределенная инструментальная среда словарного морфологического анализа для обработки русского языка”, Вестн. ЮУрГУ. Сер. Матем. моделирование и программирование, 2012, выпуск 13,страницы 119

Программирование

Распределенная инструментальная среда словарного морфологического анализа для обработки русского языка

Д. А. Усталов, М. Л. Гольдштейн

Институт математики и механики УрО РАН (г. Екатеринбург, Российская Федерация)

Аннотация: В статье рассмотрен подход к масштабированию сервиса морфологического разбора слов естественного языка при обработке различных коллекций документов на русском языке. Выполнен обзор и критический анализ существующих решений. Сформированы требования к инструментальной среде словарного морфологического анализатора. Распределенная архитектура Web-сервиса морфологического анализа, предназначенного для обработки крупных коллекций документов на русском языке, представлена в виде структурной модели. Данная архитектура реализована в виде прототипа системы на языке программирования Ruby. Приведена структура используемого морфологического словаря в виде реляционной схемы. Испытания данного метода в распределенной вычислительной среде показали линейную масштабируемость предлагаемого решения. Конфигурация эксперимента включает систему генерации нагрузки в виде HTTP-запросов, систему балансировки нагрузки на рабочие узлы распределенной системы, серверы приложений с функционирующим анализатором и базу данных морфологического словаря, а также кэширующий узел для снижения издержек при выполнении запросов к словарю. Применение данного подхода позволяет получить линейный рост производительности в распределенных системах автоматической обработки больших объемов текста.

Ключевые слова: распределенные вычисления, обработка естественного языка, корпусная лингвистика, обработка больших объемов данных, морфологический анализ.

УДК: 004.912

MSC: 68T50

Поступила в редакцию: 08.06.2012