Avila, Anderson (2020). Signal processing and machine learning for robust in-the-wild voice applications. Thèse. Québec, Doctorat en télécommunications, Université du Québec, Institut national de la recherche scientifique, 197 p.
Prévisualisation |
PDF
Télécharger (6MB) | Prévisualisation |
Résumé
La qualité et la fiabilité sont des concepts clés dans le monde technologique d’aujourd’hui. Les entreprises s’efforcent de toujours bien performer afin de dépasser les attentes des utilisateurs à leur égard. Par conséquent, des sommes d’argent considérables sont investies chaque année dans le monde pour produire des produits et des services hautement fiables et de bonne qualité. Pour rester compétitif à l’échelle mondiale, les principes de qualité et de fiabilité sont appliqués à différents secteurs de l’économie, tels que l’ingénierie, la robotique, les soins de santé, Internet et les logiciels en général. Dans ce travail, nous nous intéressons à la qualité perçue de la parole et à la fiabilité des technologies basées sur la parole. Il est connu que ces technologies ont fait leur chemin hors des laboratoires pour être utilisées dans des applications réelles. Par conséquent, leur performance au-delà des paramètres de laboratoire est devenue une préoccupation croissante pour la communauté des chercheurs. La première partie de cette thèse porte sur l’estimation de la qualité perçue de la parole dans des environnements bruyants et réverbérants. Pour ce faire, nous présentons un nouvel estimateur de la qualité perceptuelle basé sur le cadre du i-vector. Bien qu’ils soient largement utilisés dans de nombreuses applications vocales, le potentiel des i-vectors pour résumer la qualité d’un enregistrement vocal a été ignoré. Nous effectuons donc une analyse détaillée de la façon dont l’espace de variabilité totale est capable de capturer des facteurs ambiants, tels que ceux liés au bruit de fond et aux niveaux de réverbération. Nous proposons ensuite un modèle de qualité de la parole à référence complète basé sur les similitudes du i-vector. La principale motivation derrière cette démarche réside dans le fait que les i-vectors sont connus pour fournir à la fois des informations sur les haut-parleurs et les canaux. Ainsi, en considérant un modèle de référence complète, nous ne pouvons supposer aucune variabilité du locuteur et de la parole entre les représentations de référence et dégradées, c’est-à-dire que le contenu de la parole restera essentiellement le même pour le signal de référence et dégradé, et que seuls des changements dans les facteurs de canal seront présents. Nous mettons également de l’avant une nouvelle mesure de qualité instrumentale non intrusive basée sur la similitude entre deux représentations i-vectorielles. Comme le signal propre de référence n’est pas disponible dans ce cas, nous proposons l’utilisation d’un modèle de mélange gaussien de parole propre pour estimer les spectres de parole propre à partir de son homologue dégradé, qui est ensuite utilisé pour atteindre l’i-vector de référence. La deuxième partie de cette thèse est consacrée à la fiabilité des technologies basées sur la parole, en particulier la reconnaissance automatique des émotions (RAE) de la parole et la vérification automatique du locuteur (VAL). Nous explorons d’abord la RAE de la parole spontané “in-thewild”, où des facteurs tels que le bruit, la réverbération et leurs effets combinés compromettent les performances du RAE de la parole. Nous montrons que les systèmes SER existants basés sur des caractéristiques par trame (calculées à partir du spectre de modulation), bien qu’utiles pour les émotions mises en scène/posées, fonctionnent mal pour la parole spontanée. Pour surmonter cette limitation, un schéma de mise en commun des fonctionnalités robuste à l’environnement, qui combine des informations provenant de trames voisines, est proposé pour prédire l’excitation spontanée et les primitives émotionnelles de valence. Deuxièmement, la fiabilité de la vérification des locuteurs est également abordée. Nous proposons une nouvelle méthode pour minimiser l’impact de la parole affective sur les performances de la VAL. Pour ce faire, un modèle de mélange gaussien est utilisé pour apprendre une distribution de probabilité antérieure de la parole neutre pour un locuteur donné (c’est-à-dire caractériser son espace source). Ces connaissances sont ensuite utilisées pour minimiser les différences entre les espaces cibles (affectifs) et sources (neutres). Outre la variabilité intra-locuteur causée par le discours émotionnel, les attaques par rejeu représentent également une menace sérieuse pour la fiabilité de la VAL. Pour atténuer ces problèmes, nous mettons de l’avant un frontal basé sur l’utilisation d’une estimation aveugle de l’amplitude de la réponse du canal et d’un réseau neuronal résiduel comme back-end. Notre hypothèse est que la réponse en amplitude du canal, obtenue en soustrayant le spectre de magnitude logarithmique du signal observé du spectre de magnitude logarithmique estimé de la contrepartie propre du signal observé, capturera les nuances des ambiances de la pièce, des enregistrements et des appareils de lecture. Cela peut ensuite être utilisé pour distinguer la bonne foi de la parole usurpée.
Quality and reliability are key concepts in today’s technological world. Companies strive to perform consistently well in order to surpass users’ expectations. Hence, considerable amounts of money are being invested annually worldwide to produce highly reliable and good quality products and services. To remain globally competitive, quality principles and reliability are being applied across different sectors of the economy, such as engineering, robotics, health care, Internet and software in general. In this work, we are interested in the perceived quality of speech and the reliability of speech-based technologies. It is known that such technologies have made their way out of laboratories to be employed in real-world applications. Therefore, their performance beyond laboratory settings has become an increasing concern for the research community. The first part of this thesis focuses on the estimation of perceived speech quality in noisy and reverberant environments. We propose a new perceptual quality estimator based on the i-vector framework. While widely used across numerous speech applications, the potential of i-vectors to summarize the quality of a speech recording has been overlooked. We conduct a detailed analysis of how the total variability space is capable of capturing ambient factors, such as those related to background noise and reverberation levels. We then propose a full-reference speech quality model based on i-vector similarities. The main motivation behind this lies on the fact that i-vectors are known for carrying out both speaker and channel information. Thus, by considering a full-reference model, we can assume no speaker and speech variability between the reference and degraded representations. That is, speech content will remain mostly the same for the reference and degraded signals and only changes in the channel factors will be present. We also propose a new non-intrusive instrumental quality measure based on the similarity between two i-vector representations. As the reference clean signal is not available in this case, we propose the use of a clean speech Gaussian mixture model to estimate the clean speech spectra from its degraded counterpart, which is then used to attain the reference i-vector representation. The second part of this thesis is dedicated to the reliability of speech-based technologies, specifically speech emotion recognition (SER) and automatic speaker verification (ASV). We first explore spontaneous SER in-the-wild, where factors such as noise, reverberation and their combined effects compromise SER performance. We show that existing SER systems based on per-frame features (computed from the modulation spectrum), while useful for enacted/posed emotions, perform poorly for spontaneous speech. To overcome such limitation, an environment-robust feature pooling scheme, which combines information from neighbouring frames, is proposed to predict spontaneous arousal and valence emotional primitives. Second, the reliability of speaker verification is also addressed. We propose a new method to minimize the impact of affective speech on ASV performance. For that, a Gaussian mixture model is used to learn a prior probability distribution of the neutral speech for a given speaker (i.e., characterizing his/her source space). This knowledge is then used to minimize the differences between target (affective) and source (neutral) spaces. Besides intra-speaker variability caused by emotional speech, replay attacks also represent a serious threat to ASV reliability. To mitigate such problems, we propose a front-end based on the use of blind estimation of the channel response magnitude and a residual neural network as back-end. Our hypothesis is that the magnitude response of the channel, obtained by subtracting the log-magnitude spectrum of the observed signal from the estimated log-magnitude spectrum of the observed signal’s clean counterpart, will capture the nuances of room ambiences, recordings and playback devices. This can then be used to distinguish bonafide from spoofed speech.
Type de document: | Thèse Thèse |
---|---|
Directeur de mémoire/thèse: | Falk, Tiago H. |
Co-directeurs de mémoire/thèse: | O’Shaughnessy, Douglas |
Mots-clés libres: | qualité d’expérience; évaluation de la qualité de la parole; i-vector; fiabilité; quality of experience; speech quality assessment; reliability |
Centre: | Centre Énergie Matériaux Télécommunications |
Date de dépôt: | 22 oct. 2020 17:14 |
Dernière modification: | 24 janv. 2023 16:36 |
URI: | https://espace.inrs.ca/id/eprint/10421 |
Gestion Actions (Identification requise)
Modifier la notice |