А. А. Порохнин, “Анализ статистических методов снятия омонимии в текстах на русском языке”, Вестн. Астрахан. гос. техн. ун-та. Сер. управление, вычисл. техн. информ., 2013, номер 2,страницы 168

УПРАВЛЕНИЕ В СОЦИАЛЬНЫХ И ЭКОНОМИЧЕСКИХ СИСТЕМАХ

Анализ статистических методов снятия омонимии в текстах на русском языке

А. А. Порохнин

Московский государственный технический университет им. Н. Э. Баумана

Аннотация: Омонимия осложняет автоматическую обработку текста. Для текстов на английском языке достаточно широко представлены методы снятия омонимии, основанные на использовании вероятностной модели, которые дают достаточно высокую точность. Проблема для текстов на русском языке заключается не только в частеречной омонимии, свойственной текстам на английском языке, но и в морфологической и лексической омонимии. Ввиду того, что составление математической модели для русского языка, который отличается свободным расположением слов в предложении, затруднено, для снятия омонимии в текстах на русском языке большее развитие получили методы, основанные на правилах. В целях выявления результатов работы метода опорных векторов и скрытой марковской модели для снятия частеречной и полной омонимии при обработке текстов на русском языке, проводится эксперимент, в ходе которого используется подкорпус со снятой омонимией национального корпуса русского языка. Показано, что скрытая марковская модель для снятия омонимии в текстах на русском языке работает лучше метода опорных векторов.

Ключевые слова: омонимия, частеречная омонимия, морфологическая омонимия, лексическая омонимия, методы снятия омонимии, скрытая марковская модель, метод опорных векторов.

УДК: [004.934:519.21/.24]:[81’322:811.161.1’36]
ББК: ББК [32.973:22.17]:[81.1:81.411.2-21]

Поступила в редакцию: 01.06.2013