Environment-aware knowledge distillation for improved resource-constrained edge speech recognition.

Statistiques de téléchargement

Téléchargements

Téléchargements par mois depuis la dernière année

Santos Pimentel, Arthur (2024). Environment-aware knowledge distillation for improved resource-constrained edge speech recognition. Mémoire. Québec, Université du Québec, Institut national de la recherche scientifique, Maîtrise en télécommunications, 83 p.

[thumbnail of Santos_Pimentel-A-M-Janvier2024.pdf]

Prévisualisation

PDF
Télécharger (4MB) | Prévisualisation

Résumé

Les avancées récentes dans l’apprentissage auto-supervisé ont permis aux systèmes de reconnaissance automatique de la parole (ASR) d’atteindre l’etat de l’art des taux d’erreurs de reconnaissance de mots (WER) tout en ne nécessitant qu’une fraction des données étiquetées nécessaires à leurs prédécesseurs. Néanmoins, bien que de tels modèles atteignent des résultats de pointe dans des scénarios d’entraînement/test correspondants, leurs performances se dégradent considérablement lorsqu’ils sont testés dans des conditions non vues. Pour palier à ce problème, des stratégies telles que l’augmentation de données et/ou l’adaptation au domaine ont été explorées. Cependant, les modèles disponibles sont encore trop volumineux pour être considérés pour des applications vocales sur des appareils aux ressources limitées ; ainsi, des outils de compression de modèle tels que l’élagage de paramètres, la quantification de poids et la distillation de connaissances sont nécessaires.
Dans notre étude sur l’apprentissage de la représentation de la parole auto-supervisée (S3RL), nous abordons d’abord les effets de non-correspondance d’entraînement/test sur les modèles compressés, en investiguant l’impact de la quantification des paramètres et de l’élagage du modèle sur le modèle robust wav2vec 2.0 dans des conditions bruyantes, réverbérantes et mixtes. De plus, nous améliorons la recette de distillation DistilHuBERT avec des têtes de prédiction optimisées, un enrichissement du jeu de données spécifique pour différents environnements, et un estimateur d’environnement en temps réel pour la sélection du modèle lors de l’inférence. Des expériences sur l’ensemble de données LibriSpeech, corrompu par différents niveaux de bruit et de réverbération, démontrent qu’une diversité de données pendant l’entraînement renforce la robustesse du modèle contre la compression, le bruit et la réverbération. Notre méthode proposée surpassent les modèles de références jusqu’à 48,4% et 89,2% dans le taux de réduction d’erreurs de mots dans des conditions extrêmes, tout en réduisant les paramètres de 50%.

Recent advances in self-supervised learning have allowed automatic speech recognition (ASR) systems to achieve state-of-the-art (SOTA) word error rates (WER) while requiring only a fraction of the labeled data needed by its predecessors. Notwithstanding, while such models achieve SOTA results in matched train/test scenarios, their performance degrades substantially when tested in unseen conditions. To overcome this problem, strategies such as data augmentation and/or domain adaptation have been explored. Available models, however, are still too large to be considered for edge speech applications on resource-constrained devices; thus, model compression tools, such as parameter pruning, weight quantization and knowledge distillation, are needed.
In our study on self-supervised speech representation learning (S3RL), we first address train/test mismatch effects on compressed models, investigating parameter quantization and model pruning impact on robust wav2vec 2.0 under noisy, reverberant, and mixed conditions. Additionally, we enhance the DistilHuBERT distillation recipe with optimized prediction heads, targeted data augmentation for various environments, and a real-time environment estimator for model selection during inference. Experiments on the LibriSpeech dataset, corrupted with different noise and reverberation levels, demonstrate that diverse data during training enhances model robustness against compression, noise, and reverberation, with our proposed method outperforming benchmarks by up to 48.4% and 89.2% in word error reduction rate under extreme conditions, while reducing parameters by 50%.

Type de document:	Thèse Mémoire
Directeur de mémoire/thèse:	Falk, Tiago Henrique
Mots-clés libres:	reconnaissance automatique de la parole ; élagage des paramètres ; quantification des poids ; distillation des connaissances ; apprentissage auto-supervisé ; spectre de modulation ; sensibilité au contexte ; automatic speech recognition ; parameter pruning ; weight quantization ; knowledge distillation ; self-supervised learning ; modulation spectrum ; context awareness
Centre:	Centre Énergie Matériaux Télécommunications
Date de dépôt:	23 mai 2024 19:59
Dernière modification:	23 mai 2024 19:59
URI:	https://espace.inrs.ca/id/eprint/15682

Gestion Actions (Identification requise)

Modifier la notice