Dépôt numérique
RECHERCHER

Revisiting automatic speech recognition systems for augmentation capacity.

Téléchargements

Téléchargements par mois depuis la dernière année

Plus de statistiques...

Tantawy, Anwar (2022). Revisiting automatic speech recognition systems for augmentation capacity. Thèse. Québec, Doctorat en télécommunications, Université du Québec, Institut national de la recherche scientifique, 144 p.

[thumbnail of Tantawy, Anwar.pdf]
Prévisualisation
PDF
Télécharger (2MB) | Prévisualisation

Résumé

Les applications de reconnaissance automatique de la parole (ASR) ont considérablement augmenté au cours de la dernière décennie en raison de l'émergence de nouveaux appareils et de matériel domotique qui peuvent grandement bénéficier de la possibilité pour les utilisateurs d'interagir les mains libres, tels que les montres intelligentes, les écouteurs, les traducteurs portables et les assistants domestiques. La mise en œuvre d'ASR pour ces applications souffre inévitablement d'une dégradation des performances dans les scénarios réels. La plupart des systèmes ASR s'attendent à ce que l'environnement de travail ressemble à l'environnement de formation, ce qui n'est souvent pas le cas, en particulier pour les nouvelles applications avec une disponibilité limitée des données. Cette étude vise à montrer expérimentalement l'effet des variations de l'environnement sur différents modèles ASR et la capacité de différents modèles à améliorer les performances lorsqu'ils sont fournis avec des données d'entraînement comme l'environnement de test. La prise en compte d'un certain type de variabilité se fait en modifiant ou en adaptant l'un des composants du système ASR, atténuant ainsi l'effet de la variabilité dans des scénarios réels. Cependant, cette approche nominale ne tient pas compte de toutes les variabilités possibles simultanément, mais au contraire pourrait entraîner une détérioration des performances par rapport à d'autres types de changements dans l'environnement de test. La plupart des succès récents en ASR dépendent principalement de l'abondance de données dans un certain domaine ainsi que de la capacité accrue des modèles d'apprentissage. Les performances de l'ASR diminuent alors avec la diminution de la quantité de données ou de la capacité du modèle. Par conséquent, ce travail propose différentes techniques d'augmentation de données et se concentre sur la capacité des différents modèles à s'améliorer avec différents types de données augmentées.

Automatic Speech Recognition (ASR) applications have increased greatly during the last decade due to the emergence of new devices and home automation hardware that can benefit greatly from allowing users to interact hands free, such as smart watches, earbuds, portable translators, and home assistants. ASR implementation for these applications inevitably suffers from performance degradation in real life scenarios. Most ASR systems expect the working environment to be like the training environment, which is often not the case, especially for new applications with limited data availability. This study is concerned with experimentally showing the effect of variations in the environment on different ASR models and the capacity of different models to improve performance when provided with training data like the testing environment. Taking a certain type of variability into account takes place by modifying or adapting one of the ASR system components, thus alleviating the effect of variability in real-life scenarios. However, this nominal approach does not account for all possible variabilities simultaneously, but on the contrary might result in deterioration in performance against other types of changes in the testing environment. Most of the recent successes in ASR are mainly dependent on the abundance of data in a certain domain along with the increased capacity of the learning models. The performance of ASR then decreases with the decrease of either the amount of data or model capacity. Hence, this work proposes different data augmentation techniques and focuses on the capacity of the different models to improve with different types of augmented data.

Type de document: Thèse Thèse
Directeur de mémoire/thèse: O’Shaughnessy, Douglas
Mots-clés libres: modélisation acoustique; augmentation de données; auto-encodeur récurrent; transfert de style neuronal; acoustic modelling; data augmentation; recurrent autoencoder; neural style transfer
Centre: Centre Énergie Matériaux Télécommunications
Date de dépôt: 25 janv. 2023 16:08
Dernière modification: 25 janv. 2023 16:08
URI: https://espace.inrs.ca/id/eprint/13167

Gestion Actions (Identification requise)

Modifier la notice Modifier la notice