RUS  ENG
Полная версия
ЖУРНАЛЫ // Информатика и её применения // Архив

Информ. и её примен., 2024, том 18, выпуск 3, страницы 97–105 (Mi ia915)

Эта публикация цитируется в 2 статьях

Модель извлечения знания из параллельных текстов лексикографической информационной системы

Д. О. Добровольскийabc, И. М. Зацманc

a Институт русского языка Российской академии наук
b Институт языкознания Российской академии наук
c Федеральный исследовательский центр «Информатика и управление» Российской академии наук

Аннотация: Рассматривается проблемно-ориентированная модель извлечения языкового знания из параллельных текстов как ключевой теоретический компонент концепции лексикографической информационной системы (ЛГИС), обеспечивающей интеграцию электронных двуязычных словарей и параллельных корпусов. Предлагаемый подход к решению проблемы интеграции учитывает появление новых значений слов и устойчивых словосочетаний, которое обусловлено приобретением нового знания экспертами, фиксирующими эти значения, в результате семантического анализа регулярно пополняемых корпусных текстовых данных. Предлагаемая модель описывает взаимодействие компьютерных и экспертных процессов, в том числе поиск фрагментов параллельных текстов как потенциальных источников нового языкового знания, его извлечение экспертами из текстов и представление в ЛГИС. Основанием для построения проблемно-ориентированной модели служит спиральная модель генерации знания, которую в 1991 г. предложил Икуджиро Нонака. Цель статьи состоит в описании стадий построения модели извлечения языкового знания, используемой при проектировании ЛГИС.

Ключевые слова: лексикографическая информационная система, параллельные тексты, спиральная модель генерации знания, проблемно-ориентированная модель.

Поступила в редакцию: 13.07.2024

DOI: 10.14357/19922264240312



© МИАН, 2025