RUS  ENG
Полная версия
ЖУРНАЛЫ // Информатика и автоматизация // Архив

Тр. СПИИРАН, 2014, выпуск 33, страницы 164–185 (Mi trspy728)

Автоматическое извлечение словарных помет из Русского Викисловаря

А. А. Крижановскийa, А. В. Смирновa, В. М. Кругловb, Н. Б. Крижановскаяc, И. С. Кипятковаa

a Федеральное государственное бюджетное учреждение науки Санкт-Петербургский институт информатики и автоматизации РАН
b Федеральное государственное бюджетное учреждение науки Институт лингвистических исследований Российской академии наук
c Федеральное государственное бюджетное учреждение науки Институт прикладных математических исследований Карельского научного центра Российской академии наук

Аннотация: Разработана методология извлечения словарных помет из интернет-словарей. В соответствие с этой методологией экспертами построено отображение (соответствие один к одному) системы словарных помет Русского Викисловаря (385 помет) и системы словарных помет Английского Викисловаря (1001 помета). Таким образом, построена интегральная система словарных помет (1096 помет), включающая пометы обоих словарей. Разработан синтаксический анализатор (парсер), который распознаёт и извлекает известные и новые словарные пометы, сокращения и пояснения, указанные в начале текста значений слов в словарных статьях Викисловаря. Следует отметить наличие в парсере большого количества словарных помет известных заранее (385 словарных помет для Русского Викисловаря). С помощью парсера на основе данных Русского Викисловаря была построена база данных машиночитаемого Викисловаря, включающая информацию о словарных пометах. В работе приводятся численные параметры словарных помет в Русском Викисловаре, а именно: с помощью разработанной программы было подсчитано, что в базе данных машиночитаемого Викисловаря к 133 тыс. значений слов приписаны пометы и пояснения; для полутора тысяч значений слов был указан регион употребления слова, подсчитано число словарных помет для разных предметных областей. Вкладом данной работы в компьютерную лексикографию является оценка численных параметров словарных помет в больших словарях (пятьсот тысяч словарных статей).

Ключевые слова: вычислительная лингвистика, компьютерная лексикография, русский язык.

УДК: 004.912



© МИАН, 2024