RUS  ENG
Полная версия
ЖУРНАЛЫ // Управление большими системами // Архив

УБС, 2018, выпуск 73, страницы 67–94 (Mi ubs954)

Информационные технологии в управлении

Обзор алгоритмов фонетического кодирования

В. С. Выхованецa, Ц. Дуb, С. А. Сакулинb

a ФГБУН Институт проблем управления им. В.А. Трапезникова РАН, Москва
b МГТУ им. Н.Э. Баумана, Москва

Аннотация: Приведен обзор алгоритмов фонетического кодирования, предназначенных для определения схожести слов по звучанию (произношению). Алгоритмы фонетического кодирования разделены на алгоритмы для сравнения слов и алгоритмы определения расстояния между словами. Описаны алгоритмы сравнения слов SoundEx, NYSIIS, Daitch-Mokotoff, Metaphone, Polyphone и алгоритмы вычисления расстояния между словами Левенштейна, Джаро, на основе N-грамм. Для каждого алгоритма указаны его достоинства и недостатки, приводится аналог алгоритма для русского языка. Для устранения общих недостатков алгоритмов фонетического кодирования предложено использовать не последовательности букв слов, а последовательности их элементарных звуков.

Ключевые слова: алгоритм фонетического кодирования, фонетическое расстояние, индексирование слов по звучанию.

УДК: 004.93
ББК: 32.972.1

Поступила в редакцию: 12 сентября 2017 г.
Опубликована: 31 мая 2018 г.

DOI: 10.25728/ubs.2018.73.4



© МИАН, 2024