Santos Pimentel, Arthur (2024). Environment-aware knowledge distillation for improved resource-constrained edge speech recognition. Mémoire. Québec, Université du Québec, Institut national de la recherche scientifique, Maîtrise en télécommunications, 83 p.
Prévisualisation |
PDF
Télécharger (4MB) | Prévisualisation |
Résumé
Les avancées récentes dans l’apprentissage auto-supervisé ont permis aux systèmes de reconnaissance
automatique de la parole (ASR) d’atteindre l’etat de l’art des taux d’erreurs de reconnaissance de
mots (WER) tout en ne nécessitant qu’une fraction des données étiquetées nécessaires à leurs
prédécesseurs. Néanmoins, bien que de tels modèles atteignent des résultats de pointe dans des
scénarios d’entraînement/test correspondants, leurs performances se dégradent considérablement
lorsqu’ils sont testés dans des conditions non vues. Pour palier à ce problème, des stratégies telles
que l’augmentation de données et/ou l’adaptation au domaine ont été explorées. Cependant, les
modèles disponibles sont encore trop volumineux pour être considérés pour des applications vocales
sur des appareils aux ressources limitées ; ainsi, des outils de compression de modèle tels que l’élagage
de paramètres, la quantification de poids et la distillation de connaissances sont nécessaires.
Dans notre étude sur l’apprentissage de la représentation de la parole auto-supervisée (S3RL),
nous abordons d’abord les effets de non-correspondance d’entraînement/test sur les modèles compressés,
en investiguant l’impact de la quantification des paramètres et de l’élagage du modèle sur
le modèle robust wav2vec 2.0 dans des conditions bruyantes, réverbérantes et mixtes. De plus,
nous améliorons la recette de distillation DistilHuBERT avec des têtes de prédiction optimisées,
un enrichissement du jeu de données spécifique pour différents environnements, et un estimateur
d’environnement en temps réel pour la sélection du modèle lors de l’inférence. Des expériences sur
l’ensemble de données LibriSpeech, corrompu par différents niveaux de bruit et de réverbération,
démontrent qu’une diversité de données pendant l’entraînement renforce la robustesse du modèle
contre la compression, le bruit et la réverbération. Notre méthode proposée surpassent les modèles
de références jusqu’à 48,4% et 89,2% dans le taux de réduction d’erreurs de mots dans des conditions
extrêmes, tout en réduisant les paramètres de 50%.
Recent advances in self-supervised learning have allowed automatic speech recognition (ASR) systems
to achieve state-of-the-art (SOTA) word error rates (WER) while requiring only a fraction of
the labeled data needed by its predecessors. Notwithstanding, while such models achieve SOTA
results in matched train/test scenarios, their performance degrades substantially when tested in
unseen conditions. To overcome this problem, strategies such as data augmentation and/or domain
adaptation have been explored. Available models, however, are still too large to be considered for
edge speech applications on resource-constrained devices; thus, model compression tools, such as
parameter pruning, weight quantization and knowledge distillation, are needed.
In our study on self-supervised speech representation learning (S3RL), we first address train/test
mismatch effects on compressed models, investigating parameter quantization and model pruning
impact on robust wav2vec 2.0 under noisy, reverberant, and mixed conditions. Additionally, we
enhance the DistilHuBERT distillation recipe with optimized prediction heads, targeted data augmentation
for various environments, and a real-time environment estimator for model selection
during inference. Experiments on the LibriSpeech dataset, corrupted with different noise and reverberation
levels, demonstrate that diverse data during training enhances model robustness against
compression, noise, and reverberation, with our proposed method outperforming benchmarks by
up to 48.4% and 89.2% in word error reduction rate under extreme conditions, while reducing
parameters by 50%.
Type de document: | Thèse Mémoire |
---|---|
Directeur de mémoire/thèse: | Falk, Tiago Henrique |
Mots-clés libres: | reconnaissance automatique de la parole ; élagage des paramètres ; quantification des poids ; distillation des connaissances ; apprentissage auto-supervisé ; spectre de modulation ; sensibilité au contexte ; automatic speech recognition ; parameter pruning ; weight quantization ; knowledge distillation ; self-supervised learning ; modulation spectrum ; context awareness |
Centre: | Centre Énergie Matériaux Télécommunications |
Date de dépôt: | 23 mai 2024 19:59 |
Dernière modification: | 23 mai 2024 19:59 |
URI: | https://espace.inrs.ca/id/eprint/15682 |
Gestion Actions (Identification requise)
Modifier la notice |