Н. М. Марковников, И. С. Кипяткова, “Аналитический обзор интегральных систем распознавания речи”, Тр. СПИИРАН, 2018, выпуск 58,страницы 77

Эта публикация цитируется в 13 статьях

Искусственный интеллект, инженерия данных и знаний

Аналитический обзор интегральных систем распознавания речи

Н. М. Марковников^a, И. С. Кипяткова^ba

^a Федеральное государственное бюджетное учреждение науки Санкт-Петербургского института информатики и автоматизации Российской академии наук (СПИИРАН)
^b Санкт-Петербургский государственный университет аэрокосмического приборостроения (СПбГУАП)

Аннотация: Приведен аналитический обзор разновидностей интегральных (end-to-end) систем для распознавания речи, методов их построения, обучения и оптимизации. Рассмотрены варианты моделей на основе коннекционной временной классификации (CTC) в качестве функции потерь для нейронной сети, модели на основе механизма внимания и шифратор-дешифратор моделей. Также рассмотрены нейронные сети, построенные с использованием условных случайных полей (CRF), которые являются обобщением скрытых марковских моделей, что позволяет исправить многие недостатки стандартных гибридных систем распознавания речи, например, предположение о том, что элементы входных последовательностей звуков речи являются независимыми случайными величинами. Также описаны возможности интеграции с языковыми моделями на этапе декодирования, демонстрирующие существенное сокращение ошибки распознавания для интеграционных моделей. Описаны различные модификации и улучшения стандартных интегральных архитектур систем распознавания речи, как, например, обобщение коннекционной классификации и использовании регуляризации в моделях, основанных на механизмах внимания. Обзор исследований, проводимых в данной предметной области, показывает, что интегральные системы распознавания речи позволяют достичь результатов, сравнимых с результатами стандартных систем, использующих скрытые марковские модели, но с применением более простой конфигурации и быстрой работой системы распознавания как при обучении, так и при декодировании. Рассмотрены наиболее популярные и развивающиеся библиотеки и инструментарии для построения интегральных систем распознавания речи, такие как TensorFlow, Eesen, Kaldi и другие. Проведено сравнение описанных инструментариев по критериям простоты и доступности их использования для реализации интегральных систем распознавания речи.

Ключевые слова: автоматическое распознавание речи, интегральные системы, нейронные сети, глубокое обучение.

УДК: 004.522

Поступила в редакцию: 28.11.2017

DOI: 10.15622/sp.58.4