А. А. Крижановский, “Построение машинно-читаемого словаря на основе русского викисловаря”, Тр. СПИИРАН, 2009, выпуск 11,страницы 228

Построение машинно-читаемого словаря на основе русского викисловаря

А. А. Крижановский

Санкт-Петербургский институт информатики и автоматизации РАН

Аннотация: В виду большого количества словарных статей и разностороннему описанию слов (фонетика, орфография, морфология, синтаксис, семантика, этимология) викисловарь является важным лингвистическим ресурсом, например для таких задач, как: информационный поиск, сравнение онтологий, определение значения многозначных слов, проверка орфографии, автоматическое создание тезаурусов, машинный перевод и др.
В статье представлены практические вопросы извлечения данных из викисловаря, представляющего собой тезаурус и многофункциональный многоязычный словарь (только в русском викисловаре представлено более 300 языков).
Для хранения лексикографической информации, извлеченной из русского викисловаря, разработаны (1) структура базы данных машинно-читаемого словаря, (2) интерфейсы к этой базе данных. Разработанный графический интерфейс позволяет выводить на экран карточки словарных статей. В работе рассказывается о создании машинно-читаемого словаря на основе данных русского викисловаря.
Необходимо отметить, что в данной работе не рассматривались другие языковые версии викисловарей, а только русский викисловарь, при этом только небольшая часть лексикографической информации была извлечена из текстов русского викисловаря: толкование, ссылки для ключевых слов, семантические отношения, перевод. Извлечение из викисловаря таких частей словарной статьи, как: произношение (фонетическая транскрипция, аудиофайл), разбиение на слоги, этимология, цитаты (примеры употреблений), параллельные тексты (цитаты с переводами), иллюстрация (фото или видео к значению слова) — здесь не рассматривается, поскольку это первый шаг в создании парсера викисловаря с открытым исходным кодом.

Ключевые слова: машинно-читаемый словарь, лексикография, автоматическая обработка текста, вики.

УДК: 004.912

Поступила в редакцию: 10.12.2009