Д. А. Усталов, “Коллективные потоковые вычисления: реляционные модели и алгоритмы”, Модел. и анализ информ. систем, 2016, том 23, номер 2,страницы 195

Коллективные потоковые вычисления: реляционные модели и алгоритмы

Д. А. Усталов

Институт математики и механики им. Н.Н. Красовского Уральского отделения Российской академии наук, ул. Софьи Ковалевской, 16, г. Екатеринбург, 620990 Россия

Аннотация: В последнее время краудсорсинг на основе выполения микрозадач получил широкое применение в области анализа неструктурированных данных. Разрабатываются специализированные методики, состоящие из множества этапов обработки исходных данных, требующих согласованности их представления для обеспечения воспроизводимости работы. Данная статья посвящена решению проблемы воспроизводимости и формализации процесса краудсорсинга микрозадачами. Предложена модель коллективных потоковых вычислений на основе расширенной реляционной модели и потоковой модели вычислений. Модель предназначена для обработки исходных данных в виде реляционных отношений путем параллельного выполнения этапов разметки микрозадачами и этапов автоматической синхронизации. Этапы обработки данных и связи между ними записываются с использованием схемы коллективных вычислений, представляющей собой слабо связный ориентированный ациклический граф. Описан синхронный алгоритм выполнения схем коллективных вычислений. Продемонстрированы приложения модели в области компьютерной лингвистики для уточнения лексикализации понятий в электронных тезаурусах и построения родо-видовых отношений между понятиями при помощи краудсорсинга. Процедура «добавить–удалить–подтвердить» позволяет внести в лексикализацию понятий недостающие лексемы и исключить посторонние. Процедура «род–вид–сопоставить» позволяет сформировать гипо-гиперонимические отношения между понятиями на основе соответствующих родо-видовых пар слов. Результаты экспериментов на материалах открытого электронного тезауруса русского языка подтверждают применимость разработанных процедур для развития лексических ресурсов. В экспериментах приняли участие как волонтеры из популярных социальных сетей, так и пользователи бирж краудсорсинга (за вознаграждение в форме микроплатежей).

Ключевые слова: краудсорсинг, потоковые вычисления, реляционная модель, компьютерная лингвистика.

УДК: 004.048

Поступила в редакцию: 02.04.2016

DOI: 10.18255/1818-1015-2016-2-195-210