Masselot, Pierre (2017). Approches statistiques avancées pour la modélisation des séries chronologiques en régression, appliquées à l’épidémiologie environnementale. Thèse. Québec, Université du Québec, Institut national de la recherche scientifique, Doctorat en sciences de l'eau, 128 p.
Prévisualisation |
PDF
Télécharger (3MB) | Prévisualisation |
Résumé
La santé des populations est un des défis majeurs liés à l’adaptation aux changements climatiques. L’effet des vagues de chaleur est notamment déjà visible alors que ces évènements devraient se multiplier dans les années à venir. Les maladies cardiovasculaires représentent une des classes de maladies les plus touchées, tout en étant déjà un problème majeur de santé publique à l’heure actuelle. De plus en plus d’études en épidémiologie environnementale visent à identifier l’effet de la météorologie sur la santé, afin d’anticiper les changements climatiques et mettre en place des alertes appropriées. Les études d’épidémiologie environnementales s’appuient notamment sur des modèles de régression, lesquels sont appliqués avec des données pouvant prendre la forme de séries chronologiques (on peut aussi citer les données de type spatial). Les séries chronologiques violent notamment les hypothèses d’indépendance et de distribution identique des résidus dans la régression, et nécessitent donc des méthodes mieux adaptées. Cette thèse propose donc des méthodologies statistiques visant à répondre aux problèmes créés par l’utilisation de séries chronologiques dans la régression. Les méthodologies consistent toutes en un prétraitement des données puis à l’application de modèles de régression adaptés pour prendre en compte les caractéristiques des données transformées. Elles sont ensuite appliquées à l’étude du lien existant entre la météorologie, en particulier la température et l’humidité, sur la mortalité par maladie cardiovasculaire dans la communauté métropolitaine de Montréal.
Les données sanitaires utilisées dépendent notamment de l’organisation des services médicaux. Or, cette organisation entraîne la présence de bruit dans les données (p. ex. davantage de personnel de jour que de nuit), pouvant rendre plus difficile l’estimation de la relation entre une variable explicative et une réponse. Il est ainsi proposé d’agréger temporellement les séries de données sanitaires afin de faire ressortir le signal dû à la météorologie, puis d’appliquer un modèle de régression pour série temporelle visant à modéliser la dépendance temporelle dans les résidus. La comparaison de cette méthodologie avec un modèle classique d’épidémiologie environnementale montre qu’elle permet un meilleur ajustement du modèle aux données. La comparaison de diverses stratégies d’agrégation mène cependant à la conclusion que la fenêtre d’agrégation ne doit pas être supérieure à une semaine.
Une problématique plus générale des études concernant des processus naturels est la présence de saisonnalité et tendance entre autres menant à des cas de régression fallacieuse. Il est ainsi proposé dans la thèse de décomposer les différents motifs réguliers présents dans les séries de données par décomposition modale empirique. Les composantes en résultant sont ensuite utilisées dans la régression au lieu des séries de données d’origine, en utilisant la technique du Lasso (opérateur de sélection et réduction par moindres valeurs absolues) pour ne conserver que les composantes les plus importantes pour l’explication de la réponse. L’application de cette méthodologie aux données de mortalité, température et humidité permet de mettre en évidence des aspects de la relation habituellement invisibles dans les modèles statistiques. Cette méthodologie permet ainsi un regard alternatif et détaillé sur la relation entre des séries de données chronologiques.
De nombreux problèmes liés à l’utilisation de séries chronologiques dans la régression tels que l’autocorrélation et la non-stationnarité sont issus du fait qu’elles sont en fait des discrétisations de processus intrinsèquement continus. La thèse propose donc de considérer les séries sanitaires et météorologiques comme des courbes continues en utilisant le cadre de l’analyse de données fonctionnelle. Notamment, les modèles de régression fonctionnelle sont adaptés aux problématiques inhérentes au domaine de l’épidémiologie environnementale. Les résultats montrent le potentiel de la régression fonctionnelle pour comprendre le lien entre la météorologie et la santé dans sa globalité, en retranscrivant notamment les processus d’adaptation physiologique des individus.
In the context of climate change adaptation, public health management is a major challenge. For instance, the frequency and strength of heatwaves are expected to increase in the future while their effect on mortality is already well-known. Among the affected disease classes are cardiovascular diseases, which are already an important public health issue. Nowadays, many environmental epidemiology studies seek to understand precisely the effect of weather on population health, in order to accurately anticipate the future. Studies of the effect of meteorological factors on health often rely on regression models applied on time series data (although other types of data exist such as spatial data). However, several assumptions of regression models do not hold in presence of time series data, i.e. the assumptions of independence and same distribution of the residuals. Therefore, the purpose of the present thesis is to propose a number of regression methodologies addressing several issues caused by the temporal structure of data. The methodologies all rely on data preprocessing, in order to obtain transformed data that could be used in existing and efficient regression methods. They are illustrated on the relationship between weather and cardiovascular mortality in the census metropolitan area of Montréal, Canada.
Health data are often noisy because of organisational factors in hospitals, which complicate the task of estimating the effect of a weather exposure on a health issue. It is herein proposed to temporally aggregate the health response before using it in a regression model. A time series regression model is then used to account for the temporal dependence of data. Comparing this methodology with classical regression models show that it leads to a better fit to health data as well as unveiling the relationship at a the weekly scale than classical regression. Moreover, several aggregation strategies are tried and it is shown that the best results are obtained using aggregations with small time windows.
Many natural time series contains nonstationary patterns such as seasonality and trend, which could lead to spurious regression. The present thesis proposes to decompose time series data into basic oscillating components through empirical mode decomposition in order to use the components as new variables in a regression model. The use of the Lasso (least absolute shrinkage and selection operator) allows keeping only the most important components in order to explain the health response. The application of this methodology on temperature and humidity related to cardiovascular morbidity unveils little known aspects of the relationship, in addition to providing a good fit of the data. Hence, it is argued that this methodology represents a tool to understand more accurately than classical models any relationship between time-related processes.
Many time series related issues in regression models are due to the fact that time series can be viewed as the discretization of intrinsically continuous processes. Therefore, the present thesis argues for the use functional data analysis which deals with data as continuous curves instead of discrete series. In particular, functional regression models are adapted to the particular issues of environmental epidemiology. The application of such models on the temperature-related cardiovascular mortality shows that they are able to describe an overall relationship. Functional models especially bring a tool that allows representing the physiological adaptation of populations, rarely taken into account in classical models.
Type de document: | Thèse Thèse |
---|---|
Directeur de mémoire/thèse: | Chebana, Fateh |
Co-directeurs de mémoire/thèse: | Ouarda, Taha B. M. J.et St-Hilaire, André |
Mots-clés libres: | épidémiologie environnementale; régression; séries temporelles; maladies cardiovasculaires; analyse fonctionnelle; décomposition modale empirique; environmental epidemiology; regression; time series; cardiovascular diseases; functional data analysis (FDA); empirical mode decomposition (EMD) |
Centre: | Centre Eau Terre Environnement |
Date de dépôt: | 16 févr. 2018 21:15 |
Dernière modification: | 09 nov. 2021 20:48 |
URI: | https://espace.inrs.ca/id/eprint/6528 |
Gestion Actions (Identification requise)
Modifier la notice |