RUS  ENG
Полная версия
ЖУРНАЛЫ // Информатика и её применения // Архив

Информ. и её примен., 2023, том 17, выпуск 4, страницы 81–87 (Mi ia877)

Аннотирование параллельных корпусов: подходы и направления развития

А. А. Гончаров

Федеральный исследовательский центр «Информатика и управление» Российской академии наук

Аннотация: Представлены возможные направления развития инструментов для аннотирования параллельных корпусов с учетом актуального положения дел в этой сфере. Рассмотрены основные подходы к проведению исследований на корпусном материале — (1) корпусно-ориентированный, (2) корпусно-управляемый и (3) использующий корпус как источник иллюстративного материала — и кратко описаны различия между ними. Показано, что, несмотря на обилие инструментов для аннотирования корпусов, подавляющее большинство из них предназначено для работы с моноязычными корпусами и/или поддерживает очень узкий спектр функций по аннотированию текстовых данных. Наибольшее число функций предоставляют надкорпусные базы данных (НБД) и веб-приложения для доступа к ним, разрабатываемые в ФИЦ ИУ РАН: (1) формирование блоков текста оригинала и перевода, необходимых и достаточных для анализа вхождения изучаемой языковой единицы и варианта ее перевода; (2) выявление вхождения изучаемой языковой единицы и варианта ее перевода; (3) выбор признаков, характеризующих употребление изучаемой языковой единицы и варианта ее перевода; (4) выбор признаков, характеризующих переводное соответствие. Такой спектр функций позволяет решать значительную часть исследовательских задач, однако он может быть расширен. Предлагаются три направления развития имеющегося функционала, способные обеспечить более детализированное описание языкового материала.

Ключевые слова: параллельный корпус, корпусная лингвистика, аннотирование корпуса, лингвистическое аннотирование.

Поступила в редакцию: 15.10.2023

DOI: 10.14357/19922264230411



© МИАН, 2024