RUS  ENG
Полная версия
ЖУРНАЛЫ // Системы и средства информатики // Архив

Системы и средства информ., 2024, том 34, выпуск 4, страницы 73–84 (Mi ssi957)

Развитие структуры надкорпусных баз данных

А. А. Гончаров

Федеральный исследовательский центр «Информатика и управление» Российской академии наук

Аннотация: Описано развитие структуры надкорпусных баз данных (НБД), ориентированное на более глубокую детализацию результатов анализа параллельных текстов и большую системность в фиксировании этих результатов. Рассмотрена исходная структура той части НБД, которая относится к аннотированию переводных соответствий, после чего представлены четыре способа ее совершенствования. Эти способы обеспечивают следующие основные возможности: (1) снабжать блоки текста оригинала и перевода более подробной разметкой; (2) классифицировать признаки блока текста по нескольким основаниям; (3) сохранять сведения о лексических показателях признаков блока текста; (4) сохранять сведения о нерелевантности пар фрагментов параллельного текста поисковому запросу. Перечисленные возможности позволяют повысить качество результирующих данных с точки зрения их полноты и системности, а соответствующие изменения структуры данных — сделать ее более гибкой. Ни одно из предлагаемых изменений структуры данных не зависит от целей и задач какого-либо конкретного исследования, проводимого с использованием НБД.

Ключевые слова: надкорпусная база данных, параллельные тексты, аннотирование текстов, корпусная лингвистика.

Поступила в редакцию: 15.09.2024

DOI: 10.14357/08696527240406



© МИАН, 2025