1. Підвищення робастності систем автоматичного розпізнавання мовлення методами обробки сигналів
- Author
-
Національний технічний університет України 'Київський політехнічний інститут', електроніки, and акустики та акустоелектроніки
- Subjects
детектор голосової активності ,neural network ,pitch tracking ,пізня реверберація ,робастність систем автоматичного розпізнавання мовлення ,коррекция речевых сигналов ,частота основного тона ,late reverberation suppression ,robust speech recognition ,детектор голосовой активности ,voice activity detection ,робастность систем автоматического распознавания речи ,штучні нейронні мережі ,поздняя реверберация ,speech enhancement ,частота основного тону ,искусственные нейронные сети ,004.934(043.3) [534.78] ,корекція мовних сигналів - Abstract
Дисертацію присвячено вирішенню актуальної задачі підвищення робастності систем автоматичного розпізнавання мовлення шляхом розробки нових методів обробки мовленнєвих сигналів. Удосконалено метод ослаблення пізньої реверберації, що дозволяє підвищити точність систем автоматичного розпізнавання мовлення навіть в умовах недостатності апріорної інформації про параметри реверберації. Проведена експериментальна перевірка доцільності використання подання мовленнєвих сигналів в просторі ознак PNCC разом з використанням детектора голосової активності, що дозволяє забезпечити робастність системи автоматичного розпізнавання мовлення при використанні PNCC ознак в умовах нестаціонарного шуму. За отриманими результатами зроблено висновок про необхідність вдосконалення методу PNCC шляхом заміни процедури роздільної обробки голосової активності на основі енергетичного підходу на більш стійкі щодо дії нестаціонарних шумів методи. Розроблено нейромережевий детектор голосової активності системи автоматичного розпізнавання мовлення, що дало можливість використовувати такі ознаки як нормалізовані за потужністю кепстральні коефіцієнти при роботі з нестаціонарними шумами. Розширено перелік ознак запропонованого нейромережевого детектору голосової активності за рахунок введення ознаки «траєкторія основного тону», що дозволило підвищити завадостійкість його роботи. Удосконалено метод навчання нейромережевого детектора голосової активності. Для цього запропоновано алгоритм адаптивної корекції параметрів стаціонарної нелінійної MLP мережі, що дозволило прискорити процедуру навчання такого детектора. Працездатність та ефективність запропонованого детектору голосової активності була експериментально підтверджена шляхом тестування на стандартних сигналах, спотворених білим та рожевим шумами та на реальних сигналах, отриманих з телефонного каналу зв’язку NTIMIT. Результати порівняння запропонованого детектору MLP-IDBD з алгоритмами Д. Їнґ, Д. Согн та алгоритмами міжнародних стандартів ETSI AMR та ITU G.729 показали, що запропонований в даній дисертації детектор MLP-IDBD має перевагу над конкурентними аналогами за критерієм проценту правильно розпізнаних фреймів. The goal of thesis: development of speech enhancement and robust feature extraction methods for robust automatic speech recognition. The analysis of modern methods to improve the robustness of automatic speech recognition system is presented. It is indicated that the use of pre-correction enhancement techniques or robust feature-processing methods in automatic speech recognition system allows excluding the need to adapt the parameters of automatic speech recognition system to the distorted signal and thus avoiding complications arising from the need to change the structure and parameters of the existing automatic speech recognition systems. Therefore, in this thesis such directions as the correction (enhancement) of speech signals by their preprocessing and robust parametric signal representation in the automatic speech recognition system, it decided to devote considerable attention. Modification of existing logMMSE methods have proposed. It is used instead of noise spectrum estimator for enhancement of speech distorted by reverberation. Neural network based voice activity detector for automatic speech recognition system have proposed. It is enabling the use of robust features power normalized cepstral coefficients with non-stationary noise. It had been proposed to include as a classification feature trajectory of the pitch. For this purpose, it had been proposed the use of pitch tracking algorithm in noisy speech. Adaptive correction parameters algorithm of neural network based voice activity detector had been proposed to accelerate the learning process. Systematic evaluations shows that the proposed neural network based voice activity detector are robust to different noise conditions. The proposed approach also outperforms other state-of-the-art voice activity detection algorithms. Диссертация посвящена решению актуальной задачи повышения робастности систем автоматического распознавания речи путем использования новых и усовершенствованных методов обработки речевых сигналов. Рассмотрены и проанализированы современные методы повышения робастности систем АРМ. Указано, что использование методов предварительной коррекции или робастного параметрического представления сигнала в системе АРМ позволяет исключить необходимость адаптировать параметры системы АРМ к искаженному сигналу и, таким образом, избежать усложнений, обусловленных необходимостью изменять структуру и параметры уже существующих систем АРМ, что характерно для методов, основанных на адаптации моделей. Поэтому в данной диссертации таким направлениям, как коррекция речевых сигналов путем их предварительной обработки и робастное параметрическое представление сигнала в системе АРМ, уделено первостепенное внимание. Поскольку, в отличие от вопроса подавления шумовой помехи, задача подавления поздней реверберации исследована в значительно меньшей степени, главное внимание в диссертации уделено оптимизации структуры и параметров алгоритма подавления поздней реверберации. Усовершенствован метод подавления поздней реверберации, что позволило повысить точность систем автоматического распознавания речи путем оптимизации структуры и параметров оценки спектра поздней реверберации даже в условиях недостаточности априорной информации о параметрах реверберации. Проведена экспериментальна проверка целесообразности использования представления речевых сигналов в пространстве признаков PNCC вместе с использованием детектора голосовой активности, что обеспечивает робастность системы автоматического распознавания речи при использовании PNCC признаков в условиях нестационарного шума. Полученные результаты позволили сделать вывод о необходимости усовершенствования метода PNCC путём замены процедуры раздельной обработки голосовой активности на основе энергетического подхода на более устойчивые к действию нестационарных шумов методы. Для усовершенствования процедуры раздельной обработки речевого сигнала в системе автоматического распознавания речи разработана программная модель нейросетевого детектора голосовой активности с использованием трех классификационных признаков в виде логарифма кратковременной энергии, количества нуль-пересечений амплитуды сигнала и одиночного значения автокорреляционной функции. Обоснован выбор структуры детектора голосовой активности, который обеспечивает робастность системы автоматического распознавания речи при использовании PNCC признаков. Экспериментально обоснован выбор алгоритма коррекции параметров нейронной сети, определение его оптимальных значений и поиск оптимальной архитектуры нейронной сети, что позволило ограничить сложность разработанной модели и использовать предложенный детектор в режиме реального времени работы системы АРМ. Предложено расширить пространство признаков, используемых в детекторе голосовой активности, для распознавания классов «гласный-согласный-пауза» за счет введения признака «траектория частоты основного тона», что позволило повысить помехоустойчивость предложенного детектора. Разработанный алгоритм формирования «траектории частоты основного тона» экспериментально проверен на эталонных сигналах. При этом для искаженных белым шумом, с соотношением сигнал-шум 0 дБ, сигналов процент грубых ошибок составил всего 1.4%. Усовершенствован метод обучения нейросетевого детектора голосовой активности. Для этого предложен алгоритм адаптивной коррекции параметров стационарной нелинейной MLP сети, что позволило ускорить процедуру обучения такого детектора. Работоспособность и эффективность предложенного детектора голосовой активности была экспериментально подтверждена путем тестирования на стандартных сигналах, искаженных белым и розовым шумами, а также на реальных сигналах речевого корпуса NTIMIT для телефонных каналов связи. Результаты сравнения предложенного детектора MLP-IDBD с алгоритмами Д. Инґ, Д. Согн и алгоритмами международных стандартов ETSI AMR и ITU G.729 показали, что предложенный в данной диссертации детектор MLP-IDBD имеет преимущество перед конкурентными аналогами по критерию процента правильно распознанных фреймов.
- Published
- 2016