Albuquerque, Isabela (2021). On Robust and Generative Neural Networks with Applications to Brain-Computer Interfaces and Object Recognition. Thèse. Québec, Doctorat en télécommunications, Université du Québec, Institut national de la recherche scientifique, 184 p.
Prévisualisation |
PDF
Télécharger (8MB) | Prévisualisation |
Résumé
Les hypothèses standard pour l’apprentissage supervisé dans le cadre de la minimisation des risques sont trop strictes et probablement irréalistes. En conséquence, il arrive souvent que des méthodes théorique ment justifiées échouent dans la pratique ou nécessitent une ingénierie supplémentaire pour fonctionner une fois que ces hypothèses ne sont pas satisfaites. Un exemple bien connu de ce problème est l’exigence selon laquelle les ensembles de données d’entraînement et de test sont échantillonnés indépendamment d’une distribution fixe, même si les applications réelles de l’apprentissage automatique sont sensibles aux changements de distribution. De telles discordances entre les conditions d’entraînement et de test peuvent être dues à des perturbations naturelles de la distribution des données induites, par exemple, par des changements dans les conditions de collecte, ou à des distorsions synthétiques telles que des attaques contradictoires. Dans cette thèse, nous contribuons à améliorer l’applicabilité de l’apprentissage automatique, en particulier les réseaux de neurones, en comprenant mieux le problème de généralisation hors distribution et en développant des systèmes d’apprentissage polyvalents et robustes. Nos principaux objectifs consistent à proposer des approches pour évaluer l’existence de décalages de distribution, définir à quels types de distributions au-delà des domaines d’apprentissage il est possible de s’attendre à ce qu’un modèle se généralise, et concevoir des algorithmes capables d’atténuer les effets des décalages de distribution. De plus, nous visons à proposer des approches polyvalentes et générales qui peuvent également être appliquées à d’autres contextes et problèmes. Nous atteignons ces objectifs en introduisant un nouvel ensemble de données, des garanties de généralisation et des algorithmes. Compte tenu du large éventail actuel d’applications d’apprentissage automatique, nous évaluons les contributions proposées dans différents domaines où les changements de distribution sont omniprésents et potentiellement nocifs : tâches de vision par ordinateur et interfaces cerveau-ordinateur. Nous commençons nos contributions en introduisant WAUC, un nouvel ensemble de données multimodales pour l’évaluation de la charge de travail mentale dans des conditions réelles telles que des niveaux variables d’effort physique contenant des enregistrements de 48 sujets. Ensuite, nous proposons une stratégie pour estimer deux types d’écarts entre les données collectées dans différents domaines et les évaluer sur l’ensemble de données WAUC en considérant différents sujets comme des domaines distincts. Nous montrons que les estimations des décalages statistiques obtenues avec l’approche proposée peuvent être utilisées pour étudier d’autres aspects d’un pipeline d’apprentissage automatique, tels que l’évaluation quantitative des effets de différentes stratégies de normalisation couramment utilisées pour atténuer la variabilité inter-sujets. De plus, nous étudions la relation entre les changements estimés et la précision des modèles de prédiction de la charge de travail mentale. Nous nous concentrons ensuite sur le paramètre de généralisation de domaine: une formalisation où le processus de génération de données au moment du test peut produire des échantillons de domaines jamais vus auparavant. Nous prouvons une généralisation liée à ce paramètre et montrons que la représentation des données dans un espace qui donne un pouvoir prédictif pour une tâche particulière et où les distributions d’entraînement sont indiscernables, induit un faible risque sur des domaines invisibles. La minimisation des termes de la borne donne une approche contradictoire dans laquelle les divergences de domaine par paires sont estimées et minimisées. De plus, nous montrons que les innovations algorithmiques proposées sont polyvalentes et peuvent être utilisées dans d’autres applications d’apprentissage automatique où l’apprentissage peut également être formulé comme un problème d’optimisation minimax. Nous considérons l’entraînement de Generative Adversarial Networks (GANs) et revisitons le paramètre de discriminateur multiple en encadrant la minimisation simultanée des pertes fournies par différents modèles comme un problème d’optimisation multi-objectifs. Nous introduisons l’utilisation de l’optimisation multi-objectifs basée sur le gradient pour l’entraînement des GANs et comparons l’algorithme de descente de gradient multiple avec la maximisation de l’hypervolume sur un certain nombre d’ensembles de données. De plus, nous soutenons que les méthodes proposées précédemment et la maximisation de l’hypervolume peuvent toutes être considérées comme des variations de descente à gradient multiple dans lesquelles la direction de mise à jour peut être calculée plus efficacement. Nous terminons nos contributions au développement de systèmes d’apprentissage généraux et robustes en proposant une approche unifiée et polyvalente pour atténuer les changements de domaine naturels et artificiels via l’utilisation de projections aléatoires. Nous montrons que de telles projections, mises en œuvre sous forme de couches convolutives avec des poids aléatoires placés en entrée d’un modèle, sont capables d’augmenter le chevauchement entre les différentes distributions pouvant apparaître au moment de l’apprentissage/du test. Nous évaluons l’approche proposée sur des paramètres où différents types de changements de distribution se produisent, et montrons qu’elle fournit des gains en termes d’amélioration des performances hors distribution dans le cadre de la généralisation du domaine, ainsi qu’une robustesse accrue aux perturbations contradictoires.
Standard assumptions for supervised learning under the risk minimization framework are too strict and likely unrealistic. As a consequence, it is often the case that theoretically justified methods fail in practice or require extra engineering in order to work once such assumptions are not satisfied. A well known example of this issue is the requirement that training and testing datasets are sampled independently from a fixed distribution, even though real-world applications of machine learning are susceptible to distribution shifts. Such mismatches between training and testing conditions might be due to natural perturbations to the data distribution induced by, for example, changes in the collection conditions, or synthetic distortions such as adversarial attacks. In this thesis, we make contributions towards improving the applicability of machine learning, especially neural networks, by better understanding the out-of-distribution generalization problem and developing versatile and robust learning systems. Our main goals consist of proposing approaches to assess the existence of distribution shifts, defining to which kinds of distributions beyond the training domains it is possible to expect a model will generalize to, and devising algorithms capable of mitigating the effects of distribution shifts. Moreover, we aim at proposing versatile and general approaches which can also be applied to other settings and problems. We achieve such goals by introducing a new dataset, generalization guarantees, and algorithms. Considering the current wide range of machine learning applications, we evaluate the proposed contributions on different domains where distribution shifts are ubiquitous and potentially harmful: computer vision tasks and brain-computer interfaces. We start our contributions by introducing WAUC, a new multi-modal dataset for the assessment of mental workload in real-world conditions such as varying levels of physical strain containing recordings from 48 subjects. Next, we propose a strategy to estimate two types of discrepancies between the data collected from different domains and evaluate it on the WAUC dataset consider different subjects as distinct domains. We show that the estimates of statistical shifts obtained with the proposed approach can be used for investigating other aspects of a machine learning pipeline, such as quantitatively assessing the effects of different normalization strategies commonly used to mitigate cross-subject variability. Furthermore, we investigate the relationship between the estimated shifts and the accuracy of mental workload prediction models. We then focus on the domain generalization setting: a formalization where the data generating process at test time may yield samples from never-before-seen domains. We prove a generalization bound for this setting and show that representing the data in a space that yields predictive power for a particular task and where training distributions are indistinguishable, induces low risk over unseen domains. Minimizing the terms of the bound yields an adversarial approach in which pairwise domain divergences are estimated and minimized. In addition, we show that the proposed algorithmic innovations are versatile and can be employed in other machine learning applications where learning can also be formulated as a minimax optimization problem. We consider the training of Generative Adversarial Networks (GANs) and revisit the multiple-discriminator setting by framing the simultaneous minimization of losses provided by different models as a multi-objective optimization problem. We introduce the use of gradient-based multi-objective optimization for training GANs and compare the multiple gradient descent algorithm with hypervolume maximization on a number of datasets. Moreover, we argue that the previously proposed methods and hypervolume maximization can all be seen as variations of multiple gradient descent in which the update direction can be computed more efficiently. We finish our contributions to the development of general and robust learning systems by proposing a unified and versatile approach to mitigate both natural and artificial domain shifts via the use of random projections. We show that such projections, implemented as convolutional layers with random weights placed at the input of a model, are capable of increasing the overlap between the different distributions that may appear at training/testing time. We evaluate the proposed approach on settings where different types of distribution shifts occur, and show it provides gains in terms of improved out-of-distribution performance under the domain generalization setting, as well as increased robustness to adversarial perturbations.
Type de document: | Thèse Thèse |
---|---|
Directeur de mémoire/thèse: | Falk, Tiago H. |
Mots-clés libres: | généralisation hors distribution; apprentissage automatique robuste; modélisation générative optimisation multi-objectifs; interfaces cerveau-ordinateur; reconnaissance d’objets; out-of-distribution generalization; robust machine learning; generative modeling; multiobjective optimization; brain-computer interfaces; object recognition |
Centre: | Centre Énergie Matériaux Télécommunications |
Date de dépôt: | 04 mars 2022 16:37 |
Dernière modification: | 24 janv. 2023 15:29 |
URI: | https://espace.inrs.ca/id/eprint/12470 |
Gestion Actions (Identification requise)
Modifier la notice |