Dépôt numérique
RECHERCHER

Affective human-machine interfaces: towards multi-lingual, environment-robust emotion detection from speech.

Téléchargements

Téléchargements par mois depuis la dernière année

Plus de statistiques...

Kshirsagar, Shruti Rajendra (2022). Affective human-machine interfaces: towards multi-lingual, environment-robust emotion detection from speech. Thèse. Québec, Doctorat en télécommunications, Université du Québec, Institut national de la recherche scientifique, 172 p.

[thumbnail of Kshirsagar, Shruti Rajendra.pdf]
Prévisualisation
PDF
Télécharger (2MB) | Prévisualisation

Résumé

Reconnaître les émotions de l’utilisateur à partir de la parole est quelque chose que les humains font naturellement lorsqu’ils communiquent en face-à-face. Les machines, cependant, sont encore loin d’être parfaites lorsqu’il s’agit de détecter les émotions des utilisateurs, en particulier dans des environnements réalistes, où le bruit ambiant et l’acoustique de la pièce entravent la qualité du signal. De plus, il est courant que des utilisateurs de cultures différentes et des locuteurs de langues différentes interagissent avec le même système. De tels paramètres multilingues sont extrêmement difficiles et entraînent des baisses de performances significatives lorsqu’un système est, par exemple, entraîné dans une langue et testé dans une autre. En tant que telle, la reconnaissance des émotions interculturelles (RE) est devenue un sujet émergent dans l’informatique affective pour améliorer le pouvoir de généralisation des interfaces homme-machine (IHM). La plupart des recherches menées à ce jour dans le domaine de la reconnaissance multimodale des émotions se sont appuyées sur des environnements contrôlés sans aucune distraction de fond, comme le bruit ambiant et/ou la réverbération. Cependant, dans des situations réelles, les signaux sont souvent corrompus par des facteurs environnementaux, qui détériorent les performances du système ER. La plupart des recherches se sont également appuyées sur des paramètres monolingues, dans lesquels des modèles ER pour une langue particulière sont développés et testés pour la même langue. Une fois testées dans une langue différente, des baisses de performances importantes sont observées. C’est à cette problématique que ce doctorat souhaite répondre. En particulier, nous présentons de nouvelles méthodes et de nouveaux outils pour permettre non seulement la robustesse au bruit, mais aussi des capacités multilingues pour les IHM affectives émergentes. Ici, l’accent a été mis sur la reconnaissance des émotions ”dans la nature”. Comme cela sera détaillé ici, ces réalisations sont le résultat d’une combinaison de nouvelles fonctionnalités, de la fusion de fonctionnalités multimodales, ainsi que de schémas d’apprentissage automatique et d’adaptation de domaine. En particulier, dans cette thèse de doctorat, nous présentons les étapes vers le développement de modèles de reconnaissance des émotions pour des données collectées dans des conditions hautement écologiques. Pour atteindre cet objectif, trois outils principaux ont été explorés. Celles-ci incluent (i) un ensemble de caractéristiques de modulation soucieuses de la qualité, (ii) la construction de schémas d’adaptation de domaine et (iii) l’utilisation de la fusion de caractéristiques multimodales. Tout d’abord, nous proposons de combiner la méthodologie du sac de mots audio avec des caractéristiques de spectre de modulation pour la robustesse environnementale. Deuxièmement, nous tirons parti des propriétés inhérentes de sensibilité à la qualité du spectre de modulation et proposons l’utilisation d’une caractéristique de qualité comme caractéristique supplémentaire à utiliser par le système de reconnaissance des émotions de la parole. Le résultat de cette exploration a montré que les fonctionnalités proposées i) surpassaient constamment les systèmes de référence, ii) fournissaient des informations complémentaires aux fonctionnalités classiques, améliorant ainsi les performances avec la fusion de fonctionnalités, et iii) mon trant une robustesse face à l’inadéquation de l’environnement et de la langue. De plus, nous montrons que lorsque le système proposé est fourni avec des informations de qualité, des améliorations supplémentaires sont obtenues. Dans l’ensemble, le sac de caractéristiques du spectre de modulation proposé s’avère être un candidat prometteur pour le SER ”à l’état sauvage”. Deuxièmement, nous explorons les paramètres multi lingues. Ensuite, nous explorons les paramètres multilingues à l’aide d’ensembles de données en allemand, français et hongrois et d’une stratégie d’augmentation des données. Nous proposons de combiner l’approche sac de mots (BOW) avec DA pour améliorer encore le système SER inter-langue. Enfin, une variante de la méthode CORAL est proposée, appelée N-CORAL. Plus précisément, les domaines cible et source sont adaptés à un troisième domaine caché non supervisé; dans le cas de nos expériences, le chinois. Les résultats expérimentaux avec SER inter-langues utilisant les méthodes CORAL et N-CORAL soulignent leur efficacité pour la prédiction de l’activation physiologique et de la valence, les gains les plus significatifs se produisant pour cette dernière. Enfin, nous explorons la combinaison de l’amélioration de l’audio spécifique à une tâche avec des techniques d’augmentation du jeu de données en tant que stratégie pour améliorer la reconnaissance des émotions multimodales dans des conditions bruyantes. Nous avons montré que les systèmes multimodaux aident à améliorer les performances de reconnaissance des émotions en renforçant la robustesse au bruit ainsi qu’en améliorant les performances sur des fenêtres temporelles courtes. Nous espérons que les découvertes présentées ici contribueront au développement ultérieur de méthodes d’évaluation des états affectifs dans des conditions hautement écologiques.

Recognizing user emotions from speech is something humans do naturally when communicating with each other face-to-face. Machines, however, are still far from perfect when it comes to detecting user emotions, particularly in realistic settings, where ambient noise and room acoustics hamper the signal quality. Moreover, it is common for users from different cultures and speakers of different languages to interact with the same system. Such multi-lingual settings are extremely challenging and result in significant performance drops when a system is e.g., trained on one language and tested on another. As such, cross-cultural emotion recognition (ER) has become an emerging topic in affective computing to improve the generalization power of human-machine interfaces (HMIs). Most of the research conducted to date within the multi-modal emotion recognition domain has relied on controlled environments without any background distractions, such as ambient noise and/or reverberation. However, in real-life situations, signals are often corrupted by environmental factors, which deteriorate ER system performance. Most research has also relied on mono-lingual settings, in which ER models for a particular language are developed and tested for the same language. Once tested in a different language, significant performance drops are observed. This is where this Ph.D. research comes in. In particular, we present new methods and tools to enable not only noise-robustness, but also multi-lingual capabilities for emerging affective HMIs. Here, focus was placed on emotion recognition “in the wild.” As will be detailed herein, these achievements came from a combination of new features, multimodal feature fusion, as well as machine learning and domain adaptation schemes. Particularly, in this doctoral thesis, we present the steps towards the development of emotion recognition models for data collected in real-time conditions. To achieve this goal, three main tools have been explored. These include (i) quality aware bag of modulation features, (ii) building domain adaptation schemes, and (iii) using multimodal feature fusion. First, we propose to combine the bag-of-audio-words methodology with modulation spectrum features for environmental robustness. Second, we take advantage of the inherent quality-awareness properties of modulation spectrum and propose the use of a quality feature as an additional feature to be used by the speech emotion recognizer. The outcome of this exploration showed that the proposed features i) consistently outperforming benchmark systems, ii) providing complementary information to classical features, hence im proving performance with feature fusion, and iii) showing robustness against environment and language mismatch. Moreover, we show that when the proposed system is provided with quality information, further improvements are obtained. Overall, the proposed bag of modulation spectrum features are shown to be a promising candidate for “in-the-wild” SER. Secondly, we explore multi-lingual settings. Next, we explore multi-cross lingual settings using German, French, and Hungarian language datasets and data augmentation strategy. We propose to combine the bag-of-word (BOW) approach with DA to improve the cross-language SER system further. Finally, a variant of the CORAL method is proposed, termed N-CORAL. More specifi cally, both target and source domains are adapted to a third unseen unsupervised domain; in the case of our experiments, Chinese. Experimental results with cross-language SER using CORAL and N-CORAL methods emphasize their effectiveness for both arousal and valence prediction, with the most significant gains occurring for the latter. Lastly, we explore the combination of task-specific speech enhancement and data augmentation as a strategy to improve multimodal emotion recognition in noisy conditions. we showed that multi-modal systems help improve performance for emotion recognition by building noise robustness as well as improving performance over short term windows. It is hoped that the insights presented herein help in the further development of methods for assessment of affective states in real-time conditions.

Type de document: Thèse Thèse
Directeur de mémoire/thèse: Falk, Tiago H.
Mots-clés libres: reconnaissance des émotions vocales; reconnaissance des émotions inter-langues; reconnaissance des émotions multimodales; adaptation de domaine; réseau neuronal profond; speech emotion recognition; cross-language emotion recognition; multi-modal emotion recognition; domain adaptation; deep neural network
Centre: Centre Énergie Matériaux Télécommunications
Date de dépôt: 30 mars 2023 18:57
Dernière modification: 30 mars 2023 18:57
URI: https://espace.inrs.ca/id/eprint/13182

Gestion Actions (Identification requise)

Modifier la notice Modifier la notice