Аннотация:
Рассматриваются основные принципы функционирования библиотеки Stanford CoreNLP для обработки текстовых фрагментов, а также ее реализации на различных естественных языках, таких как английский, испанский и французский. Особенностью модели является взаимодействие отдельных блоков каждого языка благодаря организации взаимосвязанной структуры специализированных пакетов. Более подробно рассмотрены пакеты, которые непосредственно учитывают синтаксические и грамматические особенности внедренных языков. Также были разработаны способы взаимодействия Stanford CoreNLP с текстовыми данными на русском языке. Создана модель, позволяющая определять части речи у текстов на русском языке, повышена эффективность работы модели с текстами технической литературы на русском языке. В качестве результатов приведены тесты, позволяющие судить об эффективности внедренных изменений.
Ключевые слова:обработка информации; интеллектуальный анализ данных; Stanford CoreNLP; анализ естественного языка; POS tagger; определение частей речи; морфологический анализ русского языка.