RUS  ENG
Полная версия
ЖУРНАЛЫ // Системы и средства информатики // Архив

Системы и средства информ., 2023, том 33, выпуск 4, страницы 102–114 (Mi ssi915)

Эта публикация цитируется в 1 статье

Поиск с исключением в параллельных текстах

А. А. Гончаров

Федеральный исследовательский центр «Информатика и управление» Российской академии наук

Аннотация: Статья посвящена рассмотрению метода поиска с исключением в параллельных текстах. Основой для разработки описываемого метода стал подход к тексту как к упорядоченному множеству словоформ. В рамках этого подхода рассмотрены возможности поиска на двух языках по точной форме, по лемме и по морфологическим признакам. Показано, что этот подход дает основу не только для перечисленных видов поиска, но и для поиска с исключением, позволяющего находить в параллельных текстах такие пары фрагментов, которые содержат какие-либо словоформы на языке А, но не содержат ни одной словоформы из заданного множества на языке Б. В качестве иллюстрации приводится пример поиска фрагментов с имплицитными логико-семантическими отношениями в параллельных текстах, хранимых в базе данных. Так, если искомая словоформа на языке А является показателем некоторого логико-семантического отношения, а множество словоформ на языке Б содержит максимально полный список вариантов перевода искомой словоформы на язык Б, при поиске можно получить пары фрагментов, где во фрагменте на языке А логико-семантическое отношение выражено искомой словоформой, а во фрагменте на языке Б оно имплицитное.

Ключевые слова: поиск на двух языках, поиск с исключением, имплицитность, извлечение знания из текстов, параллельные тексты, логико-семантические отношения.

Поступила в редакцию: 15.09.2023

DOI: 10.14357/08696527230410



© МИАН, 2024