Discrete choice modeling in the era of big data

Ortelli, Nicola Marco

doi:10.5075/epfl-thesis-10456

Ortelli, Nicola Marco

2024

Download

Formats

Format
BibTeX
MARCXML
TextMARC
MARC
DublinCore
EndNote
NLM
RefWorks
RIS

Files

Abstract

The technological advancements of the past decades have allowed transforming an increasing part of our daily actions and decisions into storable data, leading to a radical change in the scale and scope of available data in relation to virtually any object of study. In the field of discrete choice analysis, such abundance of data has the potential to expand our understanding of human behavior, but this prospect is limited by the poor scalability of discrete choice models (DCMs). This thesis presents a series of innovative methodological developments for the specification and estimation of DCMs and other statistical models using large-scale datasets. Our main contributions consist in practical methods inspired from the success of machine learning in harnessing and exploiting ever-larger amounts of data. By making these methods publicly available, we offer valuable tools to researchers and practitioners across various domains. We outline three main contributions. First, we propose a resampling technique that aims at speeding up the estimation of DCMs. The proposed resampling technique makes use of locality-sensitive hashing to identify and factor redundancy out of data so as to produce smaller, weighted subsamples that resemble the full dataset from which they are generated. When used for model estimation, the generated subsamples are shown to achieve significant reductions in computational time, while mitigating the deterioration of the parameter estimates. As an extension, we test the potential of using weighted subsamples as batches in a stochastic optimization algorithm. Results show that the use of increasingly large subsamples designed to resemble the full dataset effectively speeds up model estimation, this time without compromising the precision of the estimates. Then, we develop a framework for risk-taking behavior and accident injury severity modeling, specifically designed to evaluate the effect of the Via Sicura road safety program on accident outcomes. We model the risk-taking behavior of drivers as a latent variable and propose a simple way of aggregating that of any number of drivers, giving our framework the ability to model accidents that involve any number of vehicles. Our resampling technique proves essential in estimating the model on a massive dataset containing all traffic accidents reported in Switzerland between 1992 and 2022. Results indicate that over ten years, Via Sicura has significantly improved road safety by preventing 62 fatal, 870 major and 2’296 minor injuries. Finally, we propose a data-driven algorithm for the assisted specification of DCMs. We formulate the task of model specification as a combinatorial optimization problem and design a metaheuristic algorithm to generate solutions in a way that mimics expert modelers. The search is only guided by data, which ensures that the space of candidates is explored efficiently and without any subjective biases. Owing to its multi-objective design, our algorithm generates sets of promising models rather than single solutions, which provides a wider understanding of the considered data and their associated modeling possibilities. The conducted experiments demonstrate the validity and potential of our approach in relieving modelers from the burden of model specification.

Les progrès technologiques des dernières décennies permettent de stocker sous forme de données une part grandissante de nos actions quotidiennes. Si, dans le domaine de l’analyse des choix discrets, cette abondance de données offre la possibilité d’améliorer notre compréhension du comportement humain, cette perspective est toutefois limitée par la faible portabilité des modèles de choix discret (DCMs). Cette thèse expose une série de développements méthodologiques inspirés du succès des méthodes d’apprentissage automatique, dans le but de simplifier l’application des DCMs et d’autres modèles statistiques à des ensembles de données de grande taille. Nos contributions sont disponibles en libre accès, offrant ainsi de précieux outils aux chercheurs et praticiens de nombreux domaines. Nous proposons d’abord une technique de ré-échantillonage permettant d’accélérer l’estimation des DCMs. Cette technique utilise des fonctions de hachage pour identifier et factoriser la redondance d’ensembles de données, générant ainsi des sous-échantillons pondérés qui reproduisent les caractéristiques des données d’origine. Ces sous-échantillons permettent de réduire le temps de calcul nécessaire à l’estimation de DCMs, tout en limitant la détérioration des estimateurs de leurs paramètres. Dans la continuité de cette technique, nous évaluons l’utilisation de ces sous échantillons en tant que lots dans un algorithme d’optimisation stochastique. Les résultats obtenus indiquent à nouveau une réduction du temps de calcul nécessaire à l’estimation des modèles, cette fois-ci sans compromettre la précision de leurs paramètres. Nous présentons ensuite un modèle de gravité des accidents routiers qui tient compte des comportements à risque en vue d’évaluer l’efficacité de Via Sicura, un programme de sécurité routière mis en œuvre en Suisse. Les comportements à risque des conducteurs sont représentés par des variables latentes que nous agrégeons ensuite, de manière à pouvoir modéliser un nombre quelconque de véhicules impliqués dans un même accident. Notre technique de ré-échantillonnage s’avère essentielle à l’estimation de notre modèle sur un vaste ensemble de données contenant tous les procès-verbaux d’accidents survenus en Suisse entre 1992 et 2022. Les résultats révèlent qu’en dix ans, Via Sicura a contribué à éviter 62 décès, 870 blessures graves et 2’296 blessures légères. Enfin, nous proposons un algorithme pour la spécification assistée des DCMs. Nous formulons cette tâche comme un problème d’optimisation combinatoire, que nous résolvons ensuite à l’aide d’une métaheuristique reproduisant la démarche qu’un expert suivrait pour élaborer des modèles. Ce procédé est entièrement guidé par les données, garantissant ainsi que l’espace de solutions est exploré efficacement et sans biais subjectif. Grâce à son approche multi-objectif, notre algorithme génère des ensembles de modèles prometteurs plutôt que des solutions uniques, offrant ainsi une vision plus complète des possibilités de modélisation associées aux données étudiées. Nos expériences attestent de la validité de cette approche et de sa capacité à alléger une partie du fardeau lié à la spécification manuelle des DCMs.

Details

Title

Discrete choice modeling in the era of big data

Author(s)

Ortelli, Nicola Marco (Haute école d’ingénierie et de gestion du canton de Vaud, HES-SO, Haute Ecole Spécialisée de Suisse Occidentale)

Director(s)

Bierlaire, Michel director (EPFL, Laboratoire transport et mobilité)
Matthieu de Lapparent director (Haute école d’ingénierie et de gestion du canton de Vaud, HES-SO, Haute Ecole Spécialisée de Suisse Occidentale)

Date

2024-02

Publisher

Lausanne, EPFL

Pagination & equivalents

99 p.

DOI

https://doi.org/10.5075/epfl-thesis-10456

Keywords

discrete choice models ; data-driven methods ; maximum likelihood estimation ; dataset reduction ; model specification ; accident severity ; driving behavior ; latent variable model

modèles de choix discret ; méthodes guidées par les données ; réduction d'ensembles de données ; maximum de vraisemblance ; spécification du modèle ; gravité des accidents ; comportement au volant ; modèle à variable latente

Faculty

Economie et Services

School

HEIG-VD

Institute

IIDE - Institut Interdisciplinaire du Développement de l'Entreprise

Record Appears in

Master & Doctoral Theses
Global

Degree Level

Thèse

Dissertation note

Présentée le 27 février 2024, EPFL, Faculté de l’environnement naturel, architectural et construit, Laboratoire transport et mobilité, Programme doctoral en génie civil et environnement, no de thèse 10456

Files

Abstract

Details

Actions

PDF