Monteiro, João (2021). Closing the gap between research and practice in the case of voice biometrics: training improvements and similarity learning for more robust verification / Combler les lacunes entre la recherche et la pratique dans le cas de la biométrie vocale: améliorations de l’entrainement et apprentissage par similarité pour une vérification plus robuste. Thèse. Québec, Doctorat en télécommunications, Université du Québec, Institut national de la recherche scientifique, 208 p.
Prévisualisation |
PDF
Télécharger (3MB) | Prévisualisation |
Résumé
Le domaine de l’apprentissage des représentations s’est avéré très efficace dans plusieurs problèmes et domaines, surpassant considérablement les approches classiques. Plus précisément dans le contexte de la biométrie vocale et des tâches connexes, c’est-à-dire l’objectif principal de ce travail, les représentations ap prises par les réseaux de neurones ont abouti à des projections de la parole de faible dimension hautement discriminantes. Ceux-ci ont montré de bonnes performances dans les cas end-to-end ainsi que pour définir un encodeur sur lequel des classificateurs simples peuvent être entraînés. Les représentations apprises corre spondent aux sorties des couches internes d’un modèle obtenues après apprentissage sur une tâche auxiliaire connexe. Cependant, le choix de stratégies de formation et de classes de modèles efficaces est difficile et demande beaucoup de ressources, car il repose sur une approche par essais et erreurs et est conditionné par la tâche particulière d’intérêt. En plus de la limitation par essais et erreurs de trouver la bonne architecture et la bonne procédure d’entraînement pour une tâche/données d’intérêt données, la robustesse des modèles développés aux attaques est un autre problème, en particulier dans le contexte de la biométrie vocale. Par exemple, des stratégies relativement simples telles que relecture d’une phrase de passe, l’utilisation de sys tèmes de synthèse et de conversion vocale se sont avérées capables de tromper les locuteurs. Cette limitation peut permettre à des attaquants d’accéder indûment à des systèmes contenant des données privées. Dans cette thèse, nous proposons plusieurs innovations pour répondre à ces problématiques. Première ment, nous proposons une stratégie d’entraînement multitâche plus efficace qui combine l’estimation du maximum de vraisemblance avec l’apprentissage métrique, et montrons que les modèles résultants surpassent ceux entraînés en utilisant l’une ou l’autre des deux approches. Des expériences de vérification du locuteur inter-langue et d’identification de la langue parlée sont effectuées pour valider la méthode proposée. Ensuite, nous proposons une modification architecturale du time delay neural network (TDNN) visant à le rendre plus généralement applicable. Plus précisément, nous proposons une mutualisation à différents niveaux de la pile convolutive et une nouvelle approche pour combiner efficacement ces multiples représentations. L’architecture mise à jour s’avère non seulement plus polyvalente (c’est-à-dire qu’elle peut être réutilisée dans différentes tâches), mais les représentations apprises sont également plus discriminantes. Troisième ment, pour atténuer la menace d’usurpation multi-style des systèmes de biométrie vocale, nous proposons un cadre de détection basé sur un ensemble de modèles, dans lequel deux modèles sont entraînés conjointement, tandis qu’un troisième modèle apprend à mélanger leurs sorties pour obtenir un seul score de décision. . Les résultats expérimentaux avec les attaques de relecture et de conversion texte-parole/voix montrent que la méthode d’ensemble proposée atteint des performances similaires ou supérieures par rapport aux systèmes spécialisés dans chaque stratégie d’usurpation d’identité séparément. Enfin, nous tournons notre attention vers la définition d’approches de formation de end-to-end plus polyvalentes. En tant que tel, nous proposons un ensemble de composants de modèle et un algorithme d’apprentissage qui peuvent être réutilisés dans un certain nombre de tâches différentes. Pour ce faire, nous utilisons des approches récentes d’apprentissage métrique qui paramétrent des mesures de similarité sémantique utilisant des réseaux de neurones. Nous nous appuyons sur un tel cadre en introduisant un composant supplémentaire, correspondant à un ensemble de prototypes représentant les classes observées au moment de l’apprentissage. Les schémas d’inférence sont discutés pour les cas qui nécessitent des comparaisons instance-to-instance, telles que la vérification et la récupération, ainsi que ceux qui reposent sur l’évaluation de la similarité instance-to-sample.
The field of representation learning, powered by deep neural networks, has shown to be highly effective across several problems and domains, significantly outperforming classical approaches relying on feature engineering. Specifically in the context of voice-biometrics and related tasks, i.e., the main focus of this work, representations learned by neural networks have resulted in highly discriminative utterance-level features. These have shown to perform well on both end-to-end settings as well as to define an embedding on top of which simple classifiers can be trained. Learned features correspond to outputs of a model’s inner layers obtained after training on a related auxiliary task. Choosing effective training strategies and classes of models, however, is challenging and resource consuming, as it relies on a trial-and-error approach and is conditional on the particular task of interest. Furthermore, in addition to the trial-and-error limitation of finding the right architecture and training procedure for a given task/data of interest, robustness of the developed models to attacks is another issue, particularly in the context of voice biometrics. For example, relatively simple strategies, such as replaying a pass-phrase, the use of text-to-speech synthesis, and voice conversion systems have shown to be able to fool speaker recognizers. This limitation can allow ill-intended attackers to gain undue access to systems containing private data. In this thesis, we propose several innovations to address these issues. First, we propose a more efficient multi-task training strategy that combines maximum likelihood estimation with metric learning, and show that the resulting models outperform those trained using either one of the two approaches. Experiments with cross-language speaker verification and spoken language identification are performed to validate the proposed method. Next, we propose an architectural change to the time delay neural network (TDNN) aiming to render it more generally applicable. More specifically, we propose pooling across different levels of the convolutional stack and a new approach to efficiently combine these multiple representations. The updated architecture is shown to not only be more versatile (i.e., can be re-used across different tasks) but the learned representations are also more discriminative. Third, to alleviate the threat of multi-style spoofing to voice biometrics systems, we propose a detection framework based on a model ensemble, in which two models are trained jointly, while a third model learns how to mix their outputs yielding a single decision score. Experimental results with replay and text-to-speech/voice conversion attacks show the proposed ensemble method achieving similar or superior performance when compared to systems specialized on each spoofing strategy separately. Finally, we turn our attention to the definition of more versatile end-to-end training approaches. As such, we propose a set of model components and a training algorithm which can be re-used across a number of different tasks. To do so, we leverage recent metric learning approaches that parameterize semantic similarity measures employing neural networks. We build upon such setting by introducing an extra component, corresponding to a set of prototypes representing classes observed at training time. Inference schemes are discussed for cases that require instance-to-instance comparisons, such as verification and retrieval, as well as those relying on instance-to-sample similarity assessment, such as in the case of prototypical classification.
Type de document: | Thèse Thèse |
---|---|
Directeur de mémoire/thèse: | Falk, Tiago H. |
Co-directeurs de mémoire/thèse: | Alam, Jahangir |
Mots-clés libres: | vérification discriminatif; modèles d’apprentissage; apprentissage métrique; classification prototypique; vérification du locuteur; identification de la langue parlée; détection d’usurpation; discriminative verification; learning templates; metric learning; prototypical classification; speaker verification; spoken language identification; spoofing detection |
Centre: | Centre Énergie Matériaux Télécommunications |
Date de dépôt: | 04 mars 2022 16:46 |
Dernière modification: | 24 janv. 2023 16:01 |
URI: | https://espace.inrs.ca/id/eprint/12475 |
Gestion Actions (Identification requise)
Modifier la notice |