Apprentissage et classification automatiques pour améliorer la pertinence d’un corpus d’articles

Gobeill, Julien; Van den Heuvel, Matthias; Minu Nowzohour, Laura; Noailly, Joëlle; Rassenfosse, Gaétan de; Ruch, Patrick

Apprentissage et classification automatiques pour améliorer la pertinence d’un corpus d’articles

Gobeill, Julien; Van den Heuvel, Matthias; Minu Nowzohour, Laura; Noailly, Joëlle; Rassenfosse, Gaétan de; Ruch, Patrick

2018

Télécharger

Formats

Format
BibTeX
MARCXML
TextMARC
MARC
DublinCore
EndNote
NLM
RefWorks
RIS

Résumé

Dans le cadre d’un projet étudiant le développement des politiques environnementales et climatiques sur les quatre dernières décennies, l’un des moyens envisagés par des chercheurs en sciences économiques est de construire puis exploiter un corpus d’articles de presse relatifs à cette thématique. La première année du projet s’est concentrée sur les seules archives du New York Times. Ce sont néanmoins 2,6 millions d’articles qui étaient à traiter – une masse trop importante pour l’homme. Des chercheurs en sciences de l’information et en fouille de texte ont donc été associés à cette tâche de recherche d’information. Dans un premier temps, les 2,6 millions d’articles ont été moissonnés depuis le Web, puis indexés dans un moteur de recherche. La conception d’une équation de recherche complexe a permis de sélectionner un corpus intermédiaire de 170 000 articles, dont la précision (taux d’articles pertinents) a été évaluée à 14%. Dans un deuxième temps, un algorithme d’apprentissage automatique a donc été entraîné et utilisé pour prédire la pertinence ou non d’un article. Pour nourrir l’algorithme, un échantillon de 700 articles a été manuellement étiqueté par les chercheurs en sciences économiques. L’application du classifieur à l’ensemble du corpus intermédiaire a produit un corpus final de 15 000 articles, dont la précision a été évaluée à 83%. Nos résultats montrent qu’une centaine d’articles étiquetés semble ici une quantité suffisante pour maximiser les performances du classifieur, et obtenir un corpus final de qualité proche de celle obtenue par des experts humains. La fouille de texte n’est plus une discipline émergente, ni extérieure aux sciences de l’information ; c’est une discipline mature qui peut dès à présent être utilisée pour assister le spécialiste de recherche documentaire dans une tâche de construction de corpus ou de classification de documents, tout spécialement avec des masses d’informations importantes.

Détails

Titre

Apprentissage et classification automatiques pour améliorer la pertinence d’un corpus d’articles

Auteur(s)/ trice(s)

Gobeill, Julien (Haute école de gestion de Genève, HES-SO Haute Ecole Spécialisée de Suisse Occidentale ; Institut Suisse de Bioinformatique (SIB), Genève, Suisse)
Van den Heuvel, Matthias (École Polytechnique Fédérale de Lausanne (EPFL), Suisse)
Minu Nowzohour, Laura (Institut de Hautes Études Internationales et du Développement (IHEID), Genève, Suisse)
Noailly, Joëlle (Institut de Hautes Études Internationales et du Développement (IHEID), Genève, Suisse)
Rassenfosse, Gaétan de (École Polytechnique Fédérale de Lausanne (EPFL), Suisse)
Ruch, Patrick (Haute école de gestion de Genève, HES-SO Haute Ecole Spécialisée de Suisse Occidentale ; Institut Suisse de Bioinformatique (SIB), Genève, Suisse)

Date

2018-12

Publié dans

RESSI : revue électronique suisse en science de l'information

Volume

2018, no 19

Pagination & équivalents

10 p.

Type d'article

professionnel

Domaine

Economie et Services

Ecole

HEG - Genève

Institut

CRAG - Centre de Recherche Appliquée en Gestion

Le document apparaît dans

Articles professionnels
Global

Ressource(s) externe(s)

Version en ligne

Apprentissage et classification automatiques pour améliorer la pertinence d’un corpus d’articles

Résumé

Détails

Actions

PDF