Contextualized French language models for biomedical named entity recognition

Copara, Jenny; Knafou, Julien; Naderi, Nona; Moro, Claudia; Ruch, Patrick; Teodoro, Douglas

Contextualized French language models for biomedical named entity recognition

Copara, Jenny; Knafou, Julien; Naderi, Nona; Moro, Claudia; Ruch, Patrick; Teodoro, Douglas

2020

Formate

Formate
BibTeX
MARCXML
TextMARC
MARC
DublinCore
EndNote
NLM
RefWorks
RIS

Résumé

Named entity recognition (NER) is key for biomedical applications as it allows knowledge discovery in free text data. As entities are semantic phrases, their meaning is conditioned to the context to avoid ambiguity. In this work, we explore contextualized language models for NER in French biomedical text as part of the Défi Fouille de Textes challenge. Our best approach achieved an F1 -measure of 66% for symptoms and signs, and pathology categories, being top 1 for subtask 1. For anatomy, dose, exam, mode, moment, substance, treatment, and value categories, it achieved an F1 -measure of 75% (subtask 2). If considered all categories, our model achieved the best result in the challenge, with an F1 -measure of 72%. The use of an ensemble of neural language models proved to be very effective, improving a CRF baseline by up to 28% and a single specialised language model by 4%.

La reconnaissance des entités nommées (NER) est essentielle pour les applications biomédicales car elle permet la découverte de connaissances dans des données en texte libre. Comme les entités sont des phrases sémantiques, leur signification est conditionnée par le contexte pour éviter toute ambiguïté. Dans ce travail, nous explorons les modèles de langage contextualisés pour la NER dans les textes biomédicaux français dans le cadre du Défi Fouille de Textes. Notre meilleure approche a obtenu une mesure F1 de 66% pour les symptômes et les signes, et les catégories de pathologie, en étant dans le top 1 pour la sous-tâche 1. Pour les catégories anatomie, dose, examen, mode, moment, substance, traitement et valeur, elle a obtenu une mesure F1 de 75% (sous-tâche 2). Si l’on considère toutes les catégories, notre modèle a obtenu le meilleur résultat dans le cadre de ce défi, avec une mesure F1 de 72%. L’utilisation d’un ensemble de modèles de langages neuronaux s’est révélée très efficace, améliorant une base de référence du CRF de 28% et un modèle de langage spécialisé unique de 4%

Einzelheiten

Titel

Contextualized French language models for biomedical named entity recognition

Autor(en)/ in(nen)

Copara, Jenny (Haute école de gestion de Genève, HES-SO Haute Ecole Spécialisée de Suisse Occidentale)
Knafou, Julien (Haute école de gestion de Genève, HES-SO Haute Ecole Spécialisée de Suisse Occidentale)
Naderi, Nona (Haute école de gestion de Genève, HES-SO Haute Ecole Spécialisée de Suisse Occidentale)
Moro, Claudia (Pontifical Catholic University of Paraná, Brazil)
Ruch, Patrick (Haute école de gestion de Genève, HES-SO Haute Ecole Spécialisée de Suisse Occidentale)
Teodoro, Douglas (Haute école de gestion de Genève, HES-SO Haute Ecole Spécialisée de Suisse Occidentale)

Datum

2020-06

Veröffentlich in

Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition) Nancy, France, 08-19 juin 2020. Atelier DÉfi Fouille de Textes

Verlag

Nancy, France, 8-19 June 2020

Seitenzahl & Äquivalente

Pp. 36-48

Vorgestellt auf

6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition), Nancy, France, 2020-06-08, 2020-06-19

Schlüsselwörter

CamemBERT ; BERT ; CRF ; named entity recognition ; contextualized word embeddings

reconnaissance d’entités nommées ; encapsulation de mots contextualisés

Papiertyp

full paper

Domaine

Economie et Services

Ecole

HEG - Genève

Institut

CRAG - Centre de Recherche Appliquée en Gestion

Fussnote

Due to the COVID-19 outbreak, the JEP-TALN-RECITAL 2020 conference venue in Nancy was cancelled. The proceedings of the online conference are however published according to the original schedule.

Das Dokument erscheint in

Konferenzmaterialien
Global

Externe Ressourcen

Online version

Contextualized French language models for biomedical named entity recognition

Résumé

Einzelheiten

Aktionen

PDF