Résumé
The technological advancements of the past decades have allowed transforming an increasing part of our daily actions and decisions into storable data, leading to a radical change in the scale and scope of available data in relation to virtually any object of study. In the field of discrete choice analysis, such abundance of data has the potential to expand our understanding of human behavior, but this prospect is limited by the poor scalability of discrete choice models (DCMs). This thesis
presents a series of innovative methodological developments for the specification and estimation of DCMs and other statistical models using large-scale datasets. Our main contributions consist in practical methods inspired from the success of machine learning in harnessing and exploiting ever-larger amounts of data. By making these methods publicly available, we offer valuable tools to researchers and practitioners across various domains. We outline three main contributions.
First, we propose a resampling technique that aims at speeding up the estimation of DCMs. The proposed resampling technique makes use of locality-sensitive hashing to identify and factor redundancy out of data so as to produce smaller, weighted subsamples that resemble the full dataset from which they are generated. When used for model estimation, the generated subsamples are shown to achieve significant reductions in computational time, while mitigating the deterioration of the parameter estimates. As an extension, we test the potential of using weighted subsamples as batches in a stochastic optimization algorithm. Results show that the use of increasingly large subsamples designed to resemble the full dataset effectively speeds up model estimation, this time
without compromising the precision of the estimates.
Then, we develop a framework for risk-taking behavior and accident injury severity modeling, specifically designed to evaluate the effect of the Via Sicura road safety program on accident outcomes. We model the risk-taking behavior of drivers as a latent variable and propose a simple way of aggregating that of any number of drivers, giving our framework the ability to model accidents that involve any number of vehicles. Our resampling technique proves essential in estimating the model on a massive dataset containing all traffic accidents reported in Switzerland between 1992 and 2022. Results indicate that over ten years, Via Sicura has significantly improved road safety by preventing 62 fatal, 870 major and 2’296 minor injuries.
Finally, we propose a data-driven algorithm for the assisted specification of DCMs. We formulate the task of model specification as a combinatorial optimization problem and design a metaheuristic algorithm to generate solutions in a way that mimics expert modelers. The search is only guided by data, which ensures that the space of candidates is explored efficiently and without any subjective biases. Owing to its multi-objective design, our algorithm generates sets of promising models rather than single solutions, which provides a wider understanding of the considered data and their associated modeling possibilities. The conducted experiments demonstrate the validity and
potential of our approach in relieving modelers from the burden of model specification.
Les progrès technologiques des dernières décennies permettent de stocker sous forme de données une part grandissante de nos actions quotidiennes. Si, dans le domaine de l’analyse des choix discrets, cette abondance de données offre la possibilité d’améliorer notre compréhension du comportement humain, cette perspective est toutefois limitée par la faible portabilité des modèles de choix discret (DCMs). Cette thèse expose une série de développements méthodologiques inspirés du succès des méthodes d’apprentissage automatique, dans le but de simplifier l’application des DCMs et d’autres modèles statistiques à des ensembles de données de grande taille. Nos contributions sont disponibles en libre accès, offrant ainsi de précieux outils aux chercheurs et praticiens de nombreux domaines. Nous proposons d’abord une technique de ré-échantillonage permettant d’accélérer l’estimation des DCMs. Cette technique utilise des fonctions de hachage pour identifier et factoriser la redondance d’ensembles de données, générant ainsi des sous-échantillons pondérés qui reproduisent les caractéristiques des données d’origine. Ces sous-échantillons permettent de réduire le temps de calcul nécessaire à l’estimation de DCMs, tout en limitant la détérioration des estimateurs de leurs paramètres. Dans la continuité de cette technique, nous évaluons l’utilisation de ces sous échantillons en tant que lots dans un algorithme d’optimisation stochastique. Les résultats obtenus indiquent à nouveau une réduction du temps de calcul nécessaire à l’estimation des modèles, cette fois-ci sans compromettre la précision de leurs paramètres. Nous présentons ensuite un modèle de gravité des accidents routiers qui tient compte des comportements à risque en vue d’évaluer l’efficacité de Via Sicura, un programme de sécurité routière mis en œuvre en Suisse. Les comportements à risque des conducteurs sont représentés par des variables latentes que nous agrégeons ensuite, de manière à pouvoir modéliser un nombre quelconque de véhicules impliqués dans un même accident. Notre technique de ré-échantillonnage s’avère essentielle à l’estimation de notre modèle sur un vaste ensemble de données contenant tous les procès-verbaux d’accidents survenus en Suisse entre 1992 et 2022. Les résultats révèlent qu’en dix ans, Via Sicura a contribué à éviter 62 décès, 870 blessures graves et 2’296 blessures légères. Enfin, nous proposons un algorithme pour la spécification assistée des DCMs. Nous formulons cette tâche comme un problème d’optimisation combinatoire, que nous résolvons ensuite à l’aide d’une métaheuristique reproduisant la démarche qu’un expert suivrait pour élaborer des modèles. Ce procédé est entièrement guidé par les données, garantissant ainsi que l’espace de solutions est exploré efficacement et sans biais subjectif. Grâce à son approche multi-objectif, notre algorithme génère des ensembles de modèles prometteurs plutôt que des solutions uniques, offrant ainsi une vision plus complète des possibilités de modélisation associées aux données étudiées. Nos expériences attestent de la validité de cette approche et de sa capacité à alléger une partie du fardeau lié à la spécification manuelle des DCMs.
Les progrès technologiques des dernières décennies permettent de stocker sous forme de données une part grandissante de nos actions quotidiennes. Si, dans le domaine de l’analyse des choix discrets, cette abondance de données offre la possibilité d’améliorer notre compréhension du comportement humain, cette perspective est toutefois limitée par la faible portabilité des modèles de choix discret (DCMs). Cette thèse expose une série de développements méthodologiques inspirés du succès des méthodes d’apprentissage automatique, dans le but de simplifier l’application des DCMs et d’autres modèles statistiques à des ensembles de données de grande taille. Nos contributions sont disponibles en libre accès, offrant ainsi de précieux outils aux chercheurs et praticiens de nombreux domaines. Nous proposons d’abord une technique de ré-échantillonage permettant d’accélérer l’estimation des DCMs. Cette technique utilise des fonctions de hachage pour identifier et factoriser la redondance d’ensembles de données, générant ainsi des sous-échantillons pondérés qui reproduisent les caractéristiques des données d’origine. Ces sous-échantillons permettent de réduire le temps de calcul nécessaire à l’estimation de DCMs, tout en limitant la détérioration des estimateurs de leurs paramètres. Dans la continuité de cette technique, nous évaluons l’utilisation de ces sous échantillons en tant que lots dans un algorithme d’optimisation stochastique. Les résultats obtenus indiquent à nouveau une réduction du temps de calcul nécessaire à l’estimation des modèles, cette fois-ci sans compromettre la précision de leurs paramètres. Nous présentons ensuite un modèle de gravité des accidents routiers qui tient compte des comportements à risque en vue d’évaluer l’efficacité de Via Sicura, un programme de sécurité routière mis en œuvre en Suisse. Les comportements à risque des conducteurs sont représentés par des variables latentes que nous agrégeons ensuite, de manière à pouvoir modéliser un nombre quelconque de véhicules impliqués dans un même accident. Notre technique de ré-échantillonnage s’avère essentielle à l’estimation de notre modèle sur un vaste ensemble de données contenant tous les procès-verbaux d’accidents survenus en Suisse entre 1992 et 2022. Les résultats révèlent qu’en dix ans, Via Sicura a contribué à éviter 62 décès, 870 blessures graves et 2’296 blessures légères. Enfin, nous proposons un algorithme pour la spécification assistée des DCMs. Nous formulons cette tâche comme un problème d’optimisation combinatoire, que nous résolvons ensuite à l’aide d’une métaheuristique reproduisant la démarche qu’un expert suivrait pour élaborer des modèles. Ce procédé est entièrement guidé par les données, garantissant ainsi que l’espace de solutions est exploré efficacement et sans biais subjectif. Grâce à son approche multi-objectif, notre algorithme génère des ensembles de modèles prometteurs plutôt que des solutions uniques, offrant ainsi une vision plus complète des possibilités de modélisation associées aux données étudiées. Nos expériences attestent de la validité de cette approche et de sa capacité à alléger une partie du fardeau lié à la spécification manuelle des DCMs.