RUS  ENG
Полная версия
ЖУРНАЛЫ // Математическая физика и компьютерное моделирование // Архив

Математическая физика и компьютерное моделирование, 2019, том 22, выпуск 4, страницы 53–63 (Mi vvgum267)

Моделирование, информатика и управление

Автоматизация морфологической разметки архивных документов

А. С. Комендантов, А. Г. Матвеев, А. В. Светлов

Волгоградский государственный университет

Аннотация: Работа посвящена описанию созданной авторами статьи надстройки над утилитой для стемминга MyStem И. Сегаловича. Приложение добавляет к возможностям утилиты удобный графический интерфейс, простой для освоения и интуитивно понятный пользователям, не специализирующимся в информационных технологиях. Оно перехватывает вывод утилиты MyStem, специальным образом переформатирует и анализирует его. Кроме того, приложение имеет функционал для снятия омонии вручную, если автоматическими средствами морфологические характеристики слова определены неверно. Основное назначение данного приложения - подготовка морфологической разметки документов архивного фонда «Михайловский станичный атаман» для создания лингвистического корпуса. В ходе работы над приложением была решена задача корректной обработки текстов, содержащих устаревшие кириллические символы.

Ключевые слова: автоматизация лингвистического анализа, автоматизация морфологического анализа, утилита MyStem, графический интерфейс, программная оболочка, корпусная лингвистика.

УДК: 004.91, 81’33, 004.42
ББК: 32.973, 81.1

Поступила в редакцию: 02.07.2019

DOI: 10.15688/mpcm.jvolsu.2019.4.4



© МИАН, 2024