RUS  ENG
Полная версия
ЖУРНАЛЫ // Доклады Российской академии наук. Математика, информатика, процессы управления // Архив

Докл. РАН. Матем., информ., проц. упр., 2022, том 504, страницы 60–82 (Mi danma266)

ИНФОРМАТИКА

Программная система LingvoDoc и возможности, которые она предлагает для документирования и анализа обско-угорских языков

Ю. В. Норманскаяab, О. Д. Борисенкоa, И. Б. Белобородовa, А. И. Аветисянa

a Институт системного программирования Российской академии наук им. В.П. Иванникова, Москва, Россия
b Институт языкознания Российской академии наук, Москва, Россия

Аннотация: LingvoDoc (http://lingvodoc.ispras.ru) обеспечивает сервис для совместной языковой документации и расчетов по собранным данным. Эта программная система предоставляет GraphQL HTTP API для всех составляющих частей и позволяет пользователям создавать собственные расширения для анализа данных или даже интегрировать их со своим собственным программным обеспечением. Благодаря способу построения системы и схемы ее базы данных можно создавать автономные приложения, интегрированные с системой LingvoDoc: этим приложениям потребуется подключение к Интернету только один раз для синхронизации основных типов данных и для целей аутентификации. Сама система позволяет пользователям создавать многослойные словари, прикреплять их к географической карте, наполнять документы метаданными, делиться доступом к словарям с другими пользователями или со всеми. Система LingvoDoc также предоставляет детализированные списки контроля доступа для совместного использования, что позволяет разделить пользователей на группы редакторов словарей, корректоров и пользователей только для чтения. Система также предоставляет некоторые вычислительные алгоритмы для хранимых данных: фонологические вычисления, автоматическую и управляемую дедупликацию внутри словарей и т.д. Система позволяет пользователям выбирать структуру словаря. Она поддерживает следующие типы данных: текст, изображения, звуки (wav, mp3 и flac), разметки (форматы ELAN и Praat), направленные и не направленные связи между сохраняемыми объектами. Пользователь может выбрать наиболее подходящий формат для своего словаря. Также система обеспечивает хранение, просмотр и обработку корпусов ELAN. В системе создан ряд авторских программ, которые позволяют проводить обработку языкового материала с точки зрения фонетики и этимологии. Эти программы воспроизводят то, что ранее ученые делали вручную, увеличивая скорость анализа материала в десятки, а в ряде случаев даже в сотни раз. В данной статье представлен фрагмент возможностей документации и анализа материала обско-угорских языков с использованием системы LingvoDoc.

Ключевые слова: программное обеспечение, документирование и анализ языков, анализ данных.

УДК: 004.428.4, 004.622, 004.811.51

Поступило: 05.02.2022
После доработки: 28.02.2022
Принято к публикации: 01.03.2022

DOI: 10.31857/S2686954322030055


 Англоязычная версия: Doklady Mathematics, 2022, 105:3, 187–206

Реферативные базы данных:


© МИАН, 2024