Ц. Г. Гукасян, “Векторные модели на основе символьных н-грамм для морфологического анализа текстов”, Труды ИСП РАН, 2020, том 32, выпуск 2,страницы 7

Векторные модели на основе символьных н-грамм для морфологического анализа текстов

Ц. Г. Гукасян

Российско-Армянский университет

Аннотация: В работе представляются модификации модели векторов fastText, основанные исключительно на н-граммах, для морфологического анализа текстов. fastText - библиотека для классификации текстов и обучения векторных представлений. Представление каждого слова вычисляется как сумма его отдельного вектора и векторов его символьных н-грамм. fastText хранит и использует отдельный вектор для целого слова, но во внесловарных случаях такой вектор отсутствует, что приводит к ухудшению качества получаемого вектора слова. Кроме того, в результате хранения векторов для целых слов, модели fastText обычно требуют много памяти для хранения и обработки Это становится особенно проблематично для морфологически богатых языков, учитывая многочисленность словоформ. В отличие от исходной модели fastText, предлагаемые варианты используют только информацию об н-граммах слова, избавляя от зависимости от векторов на уровне слов и в то же время помогая значительно сократить количество параметров в модели. Предлагается два способа извлечения информации из слова: внутренние символьные н-граммы и суффиксы. Модели тестируются на корпусе СинТагРус в задаче морфологической разметки и лемматизации русского языка, и показывают результаты, сравнимые с исходной моделью fastText.

Ключевые слова: вектора слов, морфологический анализ, lemmatization.

DOI: 10.15514/ISPRAS-2020-32(2)-1