Dépôt numérique
RECHERCHER

Development of generalizable, interpretable, and privacy-preserving human-centric audio applications

Téléchargements

Téléchargements par mois depuis la dernière année

Zhu, Yi (2024). Development of generalizable, interpretable, and privacy-preserving human-centric audio applications Thèse. Québec, Doctorat en sciences des télécommunications, Université du Québec, Institut national de la recherche scientifique, 141 p.

[thumbnail of Zhu-Y-D-Decembre2024.pdf]
Prévisualisation
PDF
Télécharger (81MB) | Prévisualisation

Résumé

Les signaux audio centres sur l’humain, tels que la parole, la toux et la respiration, sont utilisés dans diverses applications, telles que la reconnaissance automatique de la parole, la vérification du locuteur et le diagnostic de sante. Dans des scenarios réels, pour garantir une performance robuste, il est essentiel de se concentrer sur trois propriétés clés : la généralisabilité, l’interprétabilité et la sécurité. La généralisabilité assure que les modèles maintiennent une précision prédictive élevée lorsqu’ils sont appliques à des données non vues et a des distributions inconnues, ce qui est fréquent dans les données collectées en conditions réelles, souvent influencées par des facteurs tels que le bruit de fond. Par ailleurs, dans des domaines nécessitant une grande confiance (par exemple, la sante), la précision seule n’est pas suffisante ; le modèle doit être interprétable afin que des experts humains puissent évaluer la fiabilité de ses résultats. Enfin, les signaux vocaux et respiratoires étant issus de la coordination des systèmes respiratoire et articulatoire, ils sont considérés comme des signaux biométriques, pouvant identifier un individu. À mesure que les applications audio se démocratisent, le partage de données vocales présente un risque de fuite d’identité. De plus, les modèles génératifs récents permettent à des attaquants malveillants de cloner la voix d’un individu, facilitant ainsi l’usurpation d’identité et la fraude. Il est donc crucial de mettre en place des mesures de sécurité pour protéger la vie privée des utilisateurs.

Dans cette thèse, nous proposons plusieurs innovations pour améliorer ces propriétés dans les applications audio centrées sur l’humain. Nous nous intéressons tout particulièrement au diagnostic de sante, un domaine émergent qui soulève des enjeux relatifs aux trois aspects mentionnes. Nous proposons tout d’abord deux ensembles de caractéristiques novateurs, fondes sur la connaissance, pour caractériser la santé à partir de la parole et de la toux pathologiques. Nous avons créé et rendu public un ensemble de données de toux annotées manuellement, comprenant plus de 1000 enregistrements de toux lies au COVID-19, avec des annotations fines des phases de toux. Nous démontrons également que les caractéristiques proposées, associées à des modèles d’apprentissage automatique inspires de la physiologie, se généralisent bien aux ensembles de données non vus et surpassent plusieurs réseaux de neurones profonds complexes.

Ensuite, nous proposons deux nouvelles stratégies d’apprentissage, l’une supervisée et l’autre auto-supervisée, pour obtenir des représentations profondes généralisables et interprétables dans le cadre du diagnostic de sante et de la détection de la parole synthétique frauduleuse. Nous montrons que ces représentations atteignent des performances de pointe (SOTA) tout en étant interprétables par des humains. En outre, nous réalisons une évaluation approfondie de plusieurs méthodes d’anonymisation de la voix afin d’examiner leur impact sur le diagnostic de sante. Cette analyse met en lumière les limitations et compromis associes à l’anonymisation pour la dissimulation de l’identité, et explore les causes des variations de performance. Nous montrons également que ces anonymiseurs, utilises comme générateurs de fausses pathologies vocales, entrainent une baisse importante de la précision des détecteurs de fausses voix SOTA, suggérant que les fausses pathologies sont plus difficiles à détecter que les fausses voix classiques.

Enfin, nous proposons une architecture de modèle générique, nommée WavRx, qui intègre les trois propriétés mentionnées. Ce modèle peut être appliqué à la fois pour le diagnostic de santé et la détection de la parole synthétique frauduleuse, et génère une représentation dynamique de l’énoncé permettant d’obtenir des performances de pointe sur six ensembles de données pathologiques et deux ensembles de données de fausses voix. Il surpasse de manière significative les représentations universelles existantes en termes de performance sans apprentissage préalable (zero-shot), démontrant ainsi sa généralisabilité. De plus, nous montrons que ces représentations peuvent être utilisées pour identifier des anomalies dans la production de la parole et des artefacts de la parole synthétique, renforçant ainsi l’explicabilité. Par ailleurs, la représentation dissocie les attributs du locuteur des attributs lies à la tâche, ce qui en fait un bon candidat pour des applications respectueuses de la vie privée.


Human-centric audio signals, including speech, cough, and breathing, have been explored for a variety of applications, such as automatic speech recognition, speaker verification, health diagnostics, just to name a few. When deployed in real-world scenarios, achieving robust application performance demands a focus on three essential properties: generalizability, interpretability, and security. Generalizability guarantees that models can maintain high predictive accuracy when tested on unseen data with unknown distributions, which is often the case for in-the-wild data with unwanted biasing factors (e.g., background noise). Meanwhile, for applications where trustworthiness is required (e.g., healthcare), accuracy alone is not sufficient as the model needs to be interpretable in order for human experts to assess the reliability of its output. Lastly, since voice and respiratory signals are generated by the coordination of human respiratory and articulatory system, they are regarded as ‘biometric’ signals, which can be used to represent the user identity. As audio applications became increasingly accessible, sharing voice data can lead to potential identity leakage. With the rapid advancement of generative models, one concerning consequence is that attackers with malicious intent can easily clone someone’s voice, enabling impersonating of individuals and potentially commit fraud. As such, it is crucial to develop secure measures to protect user privacy.

In this dissertation, we propose several innovations to improve the aforementioned properties of human-centric audio applications. One task that we focus on is health diagnostics, since it is an emerging field with issues spanning all three aspects mentioned above. For this, we firstly propose two novel knowledge-based feature sets to characterize health from pathological speech and cough modalities. For the latter, we curated and open-sourced a human-labeled cough dataset comprising 1000+ COVID-19 cough recordings with fine-grained cough-phase annotations. We further show that the proposed features combined with physiology-inspired machine learning (ML) models can generalize well to unseen datasets, which outperform several complex deep neural networks (DNNs).

Secondly, we propose two novel learning strategies, one in the supervised learning paradigm and the other in self-supervised learning, to obtain generalizable and interpretable deep representations for health diagnostics and deepfake speech detection, respectively. We show that the resultant deep representations not only achieve state-of-the-art (SOTA) performance, but also can be interpreted and understood by humans. Thirdly, as voice privacy has become a concern for numerous speech applications, we perform a comprehensive evaluation of several voice anonymization methods to investigate their impact on the health diagnostics task. Our evaluation has revealed the limitations and trade-off of using voice anonymization for identity concealing, and provides a deep analysis of the causes behind changes in performance. On the other side, we show that when these anonymizers are used as pathological deepfake generators, a significant drop is seen in the accuracy obtained by SOTA deepfake detectors, suggesting that pathological deepfakes are more challenging to be detected than regular deepfakes.

Finally, we propose a generic model architecture ‘WavRx’ that incorporates all three properties raised above. The model can be applied to both health diagnostics and deepfake detection, which encodes an utterance-level dynamics representation that helps achieve SOTA performance on six different pathological datasets and two deepfake datasets. It significantly outperforms existing universal representations in terms of zero-shot performance, demonstrating its generalizability. Meanwhile, we show that the representations can be used to pinpoint speech production abnormalities as well as deepfake speech artifacts for explainability. Furthermore, the representation disentangles speaker attributes from the task-related attributes, making it a good candidate for privacy-preserving applications.

Type de document: Thèse Thèse
Directeur de mémoire/thèse: Falk, Tiago Henrique
Mots-clés libres: Apprentissage des representations; Generalisabilite; Interpretabilite; Respectueux de la vie privee; Audio; Diagnostic de sante; Anonymisation de la voix; Anonymisation de la voix; Representation learning; generalizability; interpretability; privacy-preserving; audio; health diagnostics; voice anonymization; deepfake detection
Centre: Centre Énergie Matériaux Télécommunications
Date de dépôt: 28 avr. 2025 13:13
Dernière modification: 28 avr. 2025 13:13
URI: https://espace.inrs.ca/id/eprint/16473

Gestion Actions (Identification requise)

Modifier la notice Modifier la notice