Chowdhury, Foezur Rahman (2012). A Soft Computing Approach for On-Line Automatic Speech Recognition in Highly Non-Stationary Acoustic Environments. Thèse. Université du Québec, Institut national de la recherche scientifique, Doctorat en télécommunications, 246 p.
Prévisualisation |
PDF
Télécharger (9MB) | Prévisualisation |
Résumé
Ce travail de recherche aborde les problèmes de la conception d'un système de reconnaissance automatique de la parole ASR (Automatic Speech Recognition) en ligne (on-line) robuste au bruit, à savoir, la reconnaissance de la parole en ligne auto-adaptable à environnement-détectable similaire au processus humain et son exécution dans les environnements acoustiques réels hautement non stationnaires. Commengant par une étude de l'état d'art des technologies ASR en différé (off-line), on présente, en premier, les approches courantes utilisées dans la littérature de I'ASR afin de formuler un système de reconnaissance continue en ligne de la parole basé sur la technique HMM. Dans cette approche, on examine la technique biaisée dynamique de suppression de trame (frame dynamic bias removal technique) pour l'ASR en ligne, qui a une très bonne performance d'ASR pour de la parole propre (non corrompue par du bruit). Nous introduisons alors une nouvelle technique pour un ASR en ligne typique basé sur la technique en ligne bayésienne d'inférence. Dans ce cas-ci, nous étudions la performance de la technique de la moyenne récursive commandée par des minimum MCRA (minima controlled recursive averaging) pour le détection et la compensation de bruit de canal simple en réalisant les essais en ligne d'ASR pour le signal de parole dans des environnements acoustiques hautement non-stationnaires et comparer alors leurs résultats avec la parole bruitée au discours bruyant correspondant pour I'ASR en différé. Finalement, nous présentons une architecture d'ASR en ligne basée sur une technique non-linéaire et un modèle non-gaussienne pour modéliser des scénarios acoustiques réels. Dans cette approche nous proposons la technique de l'optimisation d'essaim de particules PSO (particle swarm optimization) pour dépister et estimer le bruit, et nous avons montré par des expériences que la technique d'optimisation PSO améliore la performance du système en ligne de reconnaissance de la parole de manière significative dans les environnements acoustiques hautement non-stationnaires.
Type de document: | Thèse Thèse |
---|---|
Directeur de mémoire/thèse: | O'Shaughnessy, Douglas |
Co-directeurs de mémoire/thèse: | Selouani, Sid-Ahmed |
Mots-clés libres: | ASR; MCRA; PSO; rconnaissance; automatique; parole; bruit |
Centre: | Centre Énergie Matériaux Télécommunications |
Date de dépôt: | 22 janv. 2013 16:39 |
Dernière modification: | 12 nov. 2015 17:05 |
URI: | https://espace.inrs.ca/id/eprint/711 |
Gestion Actions (Identification requise)
Modifier la notice |