RUS  ENG
Полная версия
ЖУРНАЛЫ // Системы и средства информатики // Архив

Системы и средства информ., 2018, том 28, выпуск 2, страницы 145–153 (Mi ssi578)

Эта публикация цитируется в 1 статье

Интеллектуальный анализ данных на базе Stanford CoreNLP для определения частей речи в русском языке

О. В. Андреева, М. Б. Багиров, А. А. Данькина, Т. О. Федорова, М. М. Шевелёва

Нижегородский государственный технический университет им. Р. Е. Алексеева

Аннотация: Рассматриваются основные принципы функционирования библиотеки Stanford CoreNLP для обработки текстовых фрагментов, а также ее реализации на различных естественных языках, таких как английский, испанский и французский. Особенностью модели является взаимодействие отдельных блоков каждого языка благодаря организации взаимосвязанной структуры специализированных пакетов. Более подробно рассмотрены пакеты, которые непосредственно учитывают синтаксические и грамматические особенности внедренных языков. Также были разработаны способы взаимодействия Stanford CoreNLP с текстовыми данными на русском языке. Создана модель, позволяющая определять части речи у текстов на русском языке, повышена эффективность работы модели с текстами технической литературы на русском языке. В качестве результатов приведены тесты, позволяющие судить об эффективности внедренных изменений.

Ключевые слова: обработка информации; интеллектуальный анализ данных; Stanford CoreNLP; анализ естественного языка; POS tagger; определение частей речи; морфологический анализ русского языка.

Поступила в редакцию: 23.10.2017

DOI: 10.14357/08696527180211



Реферативные базы данных:


© МИАН, 2024