Laboratoire Lattice - UMR 8094
ENS-CNRS
1 rue Maurice Arnoux, 92120 Montrouge

Yoann Dupont

Maître de Conférences
Université Paris 3 Sorbonne Nouvelle

thèse

Sujet de thèse

La structuration dans les entités nommées

Directrice de thèse

Isabelle Tellier

Co-encadrants de thèse

Marco Dinarelli
Christian Lautier

Rapporteurs de thèse

Agata Savary
François Yvon

Examinateurs de thèse

Frédéric Landragin
Pascale Sébillot
Patrick Watrin

Soutenance

Thèse soutenue le 23 Novembre 2017 à 14h. avis de soutenance

Résumé

La reconnaissance des entités nommées est une discipline cruciale du domaine du TAL. Elle sert à l’extraction de relations entre entités nommées, ce qui permet la construction d’une base de connaissance (Surdeanu and Ji, 2014), le résumé automatique (Nobata et al., 2002), etc… Nous nous intéressons ici aux phénomènes de structurations qui les entourent.

Nous distinguons ici deux types d’éléments structurels dans une entité nommée. Les premiers sont des sous-chaines récurrentes, que nous appellerons les affixes caractéristiques d’une entité nommée. Le second type d’éléments est les tokens ayant un fort pouvoir discriminant, appelés des tokens déclencheurs. Nous détaillerons l’algorithme que nous avons mis en place pour extraire les affixes caractéristiques, que nous comparerons à Morfessor (Creutz and Lagus, 2005b). Nous appliquerons ensuite notre méthode pour extraire les tokens déclencheurs, utilisés pour l’extraction d’entités nommées du Français et d’adresses postales.

Une autre forme de structuration pour les entités nommées est de nature syntaxique, qui suit généralement une structure d’imbrications ou arborée. Nous proposons un type de cascade d’étiqueteurs linéaires qui n’avait jusqu’à présent jamais été utilisé pour la reconnaissance d’entités nommées, généralisant les approches précédentes qui sont capables de reconnaitre uniquement des entités de profondeur limitée ou qui ne peuvent pas modéliser certaines particularités des entités nommées structurées.

Tout au long de cette thèse, nous comparons deux méthodes par apprentissage automatique, à savoir les CRF et les réseaux de neurones, dont nous présenterons les avantages et inconvénients.

mots clés

reconnaissance des entités nommées, entités nommées structurées, apprentissage automatique, champs aléatoires conditionnels, réseaux de neurones

Outils libres open source

Publications

Articles de revue avec comité de lecture

DINARELLI, Marco et DUPONT, Yoann.
Modélisation de dépendances entre étiquettes dans les réseaux neuronaux récurrents.
In: Revue TAL. 2017, vol. 58, no 1. (accepté)

Conférences internationales
DUPONT, Yoann, DINARELLI, Marco, TELLIER, Isabelle and LAUTIER, Christian.
Structured Named Entity Recognition by Cascading CRFs.
In: CICling. 2017.
article

DUPONT, Yoann, DINARELLI, Marco and TELLIER, Isabelle.
Label-Dependencies Aware Recurrent Neural Networks (Prix du meilleur programme CICling 2017).
In: CICling. 2017.
article

TELLIER, Isabelle, MAKHLOUF, Zineb and DUPONT, Yoann.
Sequential Patterns of POS Labels Help to Characterize Language Acquisition.
In: DMNLP @ PKDD/ECML. 2014. p. 129-142.
article

TELLIER, Isabelle, DUPONT, Yoann, ESHKOL-TARAVELLA, Iris and WANG, Ilaine.
Adapt a Text-Oriented Chunker for Oral Data: How Much Manual Effort Is Necessary?
In: IDEAL. 2013. p. 226-233.
article

TELLIER, Isabelle and DUPONT, Yoann.
How Symbolic Learning Can Help Statistical Learning (and vice versa).
In: RANLP 2013. p. 649-658.
article

Conférences nationales
DUPONT, Yoann.
Exploration de traits pour la reconnaissance d’entités nommées du Français par apprentissage automatique (Prix du meilleur article RECITAL 2017).
In: TALN-RECITAL. 2017.
article

DUPONT, Yoann, DINARELLI, Marco et TELLIER, Isabelle.
Réseaux neuronaux profonds pour l’étiquetage de séquences.
In: TALN-RECITAL. 2017.
article

DUPONT, Yoann, TELLIER, Isabelle, LAUTIER, Christian, et DINARELLI, Marco.
Extraction automatique d’afxes pour la reconnaissance d’entités nommées chimiques.
In: EGC. 2016.
poster

MAKHLOUF, Zineb, DUPONT, Yoann, et TELLIER, Isabelle.
Caractériser l’acquisition d’une langue avec des patrons d’étiquettes morpho-syntaxiques.
In: JADT. 2014.
article

TELLIER, Isabelle, DUPONT, Yoann, ESHKOL-TARAVELLA, Iris et WANG, Ilaine.
Peut-on bien chunker avec de mauvaises étiquettes POS ?
In: TALN. 2014. p. 125-136.
article

TELLIER, Isabelle et DUPONT, Yoann.
Apprentissage symbolique et statistique pour le chunking : comparaison et combinaisons.
In: TALN-RECITAL 2013.
article

CONSTANT, Matthieu, TELLIER, Isabelle, DUCHIER, Denys, DUPONT, Yoann, Anthony Sigogne, Sylvie Billot
Intégrer des connaissances linguistiques dans un CRF: application à l’apprentissage d’un segmenteur-étiqueteur du français. In: TALN 2011. p. 321.
article

Démonstrations
DUPONT, Yoann et PLANCQ, Clément.
Un étiqueteur en ligne du Français. session démonstration de TALN-RECITAL, 2017, p. 15.
article

DUPONT, Yoann et TELLIER, Isabelle.
Un reconnaisseur d’entités nommées du Français.
In: TALN. 2014. p. 40-41.
article

TELLIER, Isabelle, DUPONT, Yoann et COURMET, Arnaud.
Un segmenteur-étiqueteur et un chunker pour le français.
In: JEP-TALN-RECITAL 2012.
article

Voir aussi dans «Chercheurs ou enseignants-chercheurs»

Alexandre François Benjamin FAGARD Catherine FUCHS