Построение машинно-читаемого словаря на основе русского викисловаря
А. А. Крижановский Санкт-Петербургский институт информатики и автоматизации РАН
Аннотация:
В виду большого количества словарных статей и разностороннему описанию слов (фонетика, орфография, морфология, синтаксис, семантика, этимология) викисловарь является важным лингвистическим ресурсом, например для таких задач, как: информационный поиск, сравнение онтологий, определение значения многозначных слов, проверка орфографии, автоматическое создание тезаурусов, машинный перевод и др.
В статье представлены практические вопросы извлечения данных из викисловаря, представляющего собой тезаурус и многофункциональный многоязычный словарь (только в русском викисловаре представлено более 300 языков).
Для хранения лексикографической информации, извлеченной из русского викисловаря, разработаны (1) структура базы данных машинно-читаемого словаря, (2) интерфейсы к этой базе данных.
Разработанный графический интерфейс позволяет выводить на экран карточки словарных статей. В работе рассказывается о создании машинно-читаемого словаря на основе данных русского викисловаря.
Необходимо отметить, что в данной работе не рассматривались другие языковые версии викисловарей, а только русский викисловарь, при этом только небольшая часть лексикографической информации была извлечена из текстов русского викисловаря: толкование, ссылки для ключевых слов, семантические отношения, перевод. Извлечение из викисловаря таких частей словарной статьи, как: произношение (фонетическая транскрипция, аудиофайл), разбиение на слоги, этимология, цитаты (примеры употреблений), параллельные тексты (цитаты с переводами), иллюстрация (фото или видео к значению слова) — здесь не рассматривается, поскольку это первый шаг в создании парсера викисловаря с открытым исходным кодом.
Ключевые слова:
машинно-читаемый словарь, лексикография, автоматическая обработка текста, вики.
УДК:
004.912
Поступила в редакцию: 10.12.2009