RUS  ENG
Полная версия
ЖУРНАЛЫ // Системы и средства информатики // Архив

Системы и средства информ., 2014, том 24, выпуск 3, страницы 204–217 (Mi ssi370)

Использование хеш-функций для повышения скорости морфологического анализа

Н. В. Сомин, М. М. Шарнин

Институт проблем информатики Российской академии наук

Аннотация: Рассматривается проблема повышения эффективности морфологического анализа русского языка. Описывается разработанная в ИПИ РАН система морфологического анализа: набор морфологических характеристик и алгоритмы работы. Указываются задачи и системы, связанные с проблемой логико-семантического анализа текстов, в которых данная морфологическая система нашла применение. Обсуждаются особенности системы с точки зрения занимаемой памяти и скорости работы. Предлагается способ хранения морфо-лексической информации с помощью хеш-функций, обеспечивающих высокую скорость доступа. Обсуждаются трудности, возникающие при реализации такого подхода, и рассматриваются пути их преодоления. Приводится структура информационных массивов новой версии и реализованные в ней поисковые алгоритмы, а также даются сведения по подсистеме ввода и корректировки морфологической информации. Приводятся конкретные параметры новой реализации морфологической системы и данные по ускорению работы по сравнению с предыдущей версией. В заключение обсуждаются возможности по развитию новой версии морфологии и перенесению предложенного подхода к реализации на другие компоненты лингвистического процессора.

Ключевые слова: морфологический анализ; лингвистический процессор; морфологическая омонимия; хеш-функция.

Поступила в редакцию: 12.08.2014

DOI: 10.14357/08696527140315



Реферативные базы данных:


© МИАН, 2024