Laboratoires partenaires

Organismes tutelles

Système de TAL

La détection automatique de chaînes repose sur l'état de l'art, concernant non seulement la langue française (systèmes à base de règles), mais surtout les langues représentées dans les campagnes internationales (systèmes à base d'apprentissage et systèmes hybrides). Plusieurs techniques sont implémentées pour le français, en commençant par séparer la détection des expressions référentielles de celle des paires coréférentes, les deux étapes faisant appel à des algorithmes différents. Des analyses linguistiques des erreurs commises sont effectuées, afin de spécifier des méthodes d'hybridation : application de règles en amont ou en aval de l'apprentissage, détermination de traits linguistiques spécifiques au français.

Etat de l'art et positionnement

Dans le domaine du TAL (Mitkov, 1999 ; Branco et al., 2003 ; Denis, 2007 ; Poibeau, 2011 ; Dinarelli & Rosset, 2011), les conférences MUC (Message Understanding Conference) et d’autres initiatives relevant de l’extraction d’information – on se reportera par exemple à (Poibeau, 2003) à la fois pour les aspects historiques et techniques – ont mis en avant la notion d’« entité nommée ». Plus que les phénomènes de référence, ce sont les types d’expressions désignant des personnes, des organisations, des lieux, des dates, des quantités, etc., qui font l’objet de classifications. Les efforts portent ainsi sur la mise au point de listes de termes-types (termes « pleins » et non « vides » comme les pronoms) et de règles qui permettent à un programme informatique de détecter les entités nommées dans un texte. L’enjeu est de repérer des marqueurs, et non de s’intéresser aux types d’accès aux référents ou à leur accessibilité. Plus un programme arrive à détecter d’entités nommées et à les catégoriser avec justesse, plus il obtient des mesures satisfaisantes. Conférences et campagnes d’évaluation se succèdent ainsi, avec parfois plusieurs tâches pour diversifier la compétition. La tâche consistant à détecter les CR accompagne très vite celle consistant à détecter les entités nommées. Il s’agit non seulement de repérer des marqueurs, de catégoriser les référents correspondants, mais aussi de détecter des relations de coréférence entre marqueurs. On parle alors de « résolution des coréférences », plutôt que d’identification des CR. Un programme informatique capable de résoudre les coréférences peut notamment identifier le référent le plus mentionné dans un texte, et donc mieux « comprendre » de quoi traite ce texte. On reste bien dans une optique d’extraction d’information.

Or la résolution des coréférences implique non seulement la détection des entités nommées, mais aussi la résolution des anaphores, qui devient une problématique à part entière en traitement automatique des langues (Mitkov, 2002). Les premiers efforts portent sur les anaphores pronominales, avec tout d’abord le problème consistant à distinguer les « il » impersonnels – que le programme doit ignorer – des « il » personnels, que le programme doit repérer et pour lesquels il doit trouver un antécédent « plein » de manière à construire une relation de coréférence. Comme pour la détection des entités nommées, des règles sont programmées pour ce faire. Les programmes informatiques se fondent ainsi sur quelques critères morphosyntaxiques, éventuellement syntaxiques, mais surtout sur la matière même du texte (termes « pleins » utilisés, nombre de mots entre une entité nommée et l’anaphore, etc.) pour identifier un antécédent à un pronom. Parfois, ce sont même les approches avec les critères les plus simples qui donnent de bons résultats : dans beaucoup de cas, la dernière entité nommée avec le même genre et le même nombre que le pronom s’avère être l’antécédent le plus plausible, et une telle règle constitue un point de départ important pour le programmeur, malgré les contre-exemples célèbres que sont « la sentinelle […] il » ou « le maire […] elle ». Les techniques évoluent – pour une revue complète, se reporter à Poesio et al. (2010) –, font appel à des algorithmes d’apprentissage automatique plutôt que des paramétrages à la main, mais, on le voit, restent loin de la finesse des analyses linguistiques comme celles de Corblin (1987), Kleiber (1994), Corblin (1995), Schnedecker (1997), Kleiber (2001), Charolles (2002), etc. Cet écart entre théorie et application est remarqué, et amène certains auteurs à critiquer les contraintes des campagnes d’évaluation dans la mesure où elles obligent à ne s’intéresser qu’à un ensemble restreint de phénomènes (van Deemter & Kibble, 2000).

A l’heure actuelle, une dizaine de systèmes disponibles arrivent à identifier plus ou moins bien les relations de coréférence dans un texte tout venant. Les performances sont intéressantes compte tenu de la difficulté de la tâche, mais les erreurs faites par les systèmes peuvent sembler grossières pour un linguiste : des pronoms sont affectés à des référents non pertinents, des expressions référentielles ne sont même pas repérées, alors qu’une lecture (humaine) rapide donne immédiatement les solutions. Pour améliorer les performances de tels systèmes, les efforts actuels portent sur l’importance de la sémantique lexicale en tant que critère supplémentaire (Ng, 2007) et d’une manière générale sur la liste nécessaire et suffisante de critères pour résoudre les coréférences (Bengtson & Roth, 2008), sur la hiérarchisation des critères (par ordre d’importance) et la combinaison de plusieurs algorithmes, avec par exemple plusieurs passes (Raghunathan et al., 2010), sur le développement de plateformes permettant à chacun de paramétrer les critères de son propre système de résolution des coréférences (Stoyanov et al., 2010), sur l’exploitation d’informations liées aux entités nommées, après apprentissage automatique (Haghighi & Klein, 2010), sur l’exploitation d’informations permettant de relier automatiquement deux termes pleins pour résoudre les anaphores infidèles (Recasens et al., 2013), ou encore sur l’exploitation d’informations spécifiques au domaine (Gilbert & Riloff, 2013). Enfin, des efforts sont faits également sur des tâches un peu plus spécifiques ou marginales, comme la résolution des coréférences dans un contexte bio-médical (domaine relevant de la bio-informatique, qui apporte ses propres contraintes compte tenu de la nature des référents en présence), la résolution des coréférences événementielles (Cybulska & Vossen, 2013) ou des coréférences dans des textes multilingues (Zhekova & Kübler, 2013).

Enfin, il est à noter que les avancées rapides du deep learning ont eu une influence sur la manière de réaliser des systèmes de TAL, et notamment des systèmes tels que ceux visés par DEMOCRAT. Des articles récents (Wiseman et al., 2015 ; Clark & Manning, 2016 ; Lee et al., 2017) ont prouvé l’intérêt de l’apprentissage, et notamment de l’apprentissage profond, pour l’identification automatique des chaînes de référence. Surtout, (Lee et al., 2017) ont montré très récemment qu’il est possible de réaliser un système à base d’apprentissage profond qui n’utilise aucune ressource externe. Leur système ne fait aucun pré-traitement des données, et peut ainsi théoriquement s’appliquer à n’importe quelle langue : il est capable d’extraire automatiquement les traits caractéristiques d’une langue grâce à des couches cachées au niveau d’unités plus fines que les mots (caractères et/ou affixes). Comme de plus ce système a dépassé en performances les systèmes état-de-l’art, il s’agit d’une avancée majeure pour l’identification automatique des chaînes de référence. Des travaux sont en cours au Lattice, non seulement pour reproduire le même type de système (et le tester pour la langue française), mais surtout pour l’améliorer et en faire un nouveau système. L’amélioration prévue consiste d’une part à alléger la première phase de traitement, d’autre part à améliorer la phase consistant à affecter des scores. Les recherches réalisées dans Democrat et qui ont conduit aux publications du volet TAL (relevées lors de l’évaluation à 18 mois) ont cet objectif. Un travail intensif de développement informatique est en cours depuis début 2018, en suivant deux voies techniques parallèles de manière à maximiser les chances d’obtenir un système performant et innovant.

Références bibliographiques de cette page

BOUDREAU S. & KITTLEDGE R., 2006, “Résolution de l’anaphore et identification des CR : une approche « minimaliste », in J.-M. Viprey (éd.) JADT’06, 8ièmes journées internationales d’analyse statistiques des données textuelles, Besançon, PU de Franche-Comté, 201-209.

BRANCO A., MCENERY T. & MITKOV R. (éds), Anaphora Processing: Linguistic, cognitive and computational modelling, Amsterdam & Philadelphia, John Benjamins.

BROUWERS L., BERNHARD D., LIGOZAT A.-L. & FRANÇOIS T., 2012, Simplification syntaxique de phrases pour le français In Actes de la conférence conjointe JEP-TALN-RECITAL 2012, volume 2: TALN, pages 211–224, Montpellier.

CLARK K. & MANNING C., 2016, Improving Coreference Resolution by Learning Entity-Level Distributed Representations, In: Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics, Berlin, Germany, pp. 643-653.

CRISTEA D., IDE N., MARCU D., TABLAN V., 2000, “An Empirical Investigation of the Relation Between Discourse Structure and Coreference, in Coling’00, Proceedings of the 18th conference on Computational Linguistics, Vol.1, 208-214.

CRISTEA D., POSTOLACHE O.-D., DIMA G.-E., BARBU C., 2002, “AR-Engine – a framework for unrestricted co-reference resolution, Proceedings of the LREC 2002 - Third International Conference on Language Resources and Evaluation, Las Palmas de Gran Canaria, Spain.

CYBULSKA A. & VOSSEN P., 2013, « Semantic Relations between Events and their Time, Locations and Participants for Event Coreference Resolution », In : Proceedings of Recent Advances in Natural Language Processing (RANLP-2013), pp. 156-163, Hissar, Bulgaria.

DENIS P., 2007, New Learning Models for Robust Reference Resolution, Ph.D. dissertation, University of Texas at Austin.

DESOYER A., LANDRAGIN F., TELLIER I., LEFEUVRE A. & ANTOINE J.-Y., 2014, « Les coréférences à l’oral : une expérience d’apprentissage automatique sur le corpus ANCOR », Traitement Automatique des Langues (TAL) 55(2), pp. 97-121.

DINARELLI M., 2010, Spoken Language Understanding: from Spoken Utterances to Semantic Structures. Ph.D. Dissertation, University of Trento.

DINARELLI M. & ROSSET S., 2011, Models Cascade for Tree-Structured Named Entity Detection. In Proceedings of International Joint Conference on Natural Language Processing (IJCNLP), Chiang Mai, Thailand.

DINARELLI M. & ROSSET S., 2012, Tree Representations in Probabilistic Models for Extended Named Entity Detection. In Proceedings of the European chapter of the Association for Computational Linguistics (EACL), Avignon, France.

DUPONT V. & BESTGEN Y., 2006, ‘Learning From Technical Documents : The Role of Intermodal Referring Expressions, Human Factors, The Journal of The Human Factors and Erogonomics Society Summer 48/2, 257-64.

GILBERT N. & RILOFF E., 2013, « Domain-Specific Coreference Resolution with Lexicalized Features », In : Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics (ACL 2013), Sofia, Bulgaria.

HAGHIGHI A. & KLEIN D., 2010, « Coreference Resolution in a Modular, Entity-Centered Model », In : Proceedings of Human Language Technologies: The 11th Annual Conference of the North American Chapter of the Association for Computational Linguistics (HLT-NAACL).

HEEYOUNG L., RECASENS M., CHANG A., SURDEANU M., JURAFSKY D., 2012, “Joint Entity and Event Coreference Resolution across Documents”, Proceedings of the 2012 Joint Coreference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, 489-500.

ILISEI I., MIHAILA C., INKPEN D., AND MITKOV, R., 2011, “The Impact of Zero Pronominal Anaphora on Translational Language: A Study on Romanian Newspapers”. In Proceedings of the International Conference on Knowledge Engineering, Principles and Techniques (KEPT2011), Cluj-Napoca, Romania, July 4–6.

JAKOB N. & GUREVYCH I. (2010) “Using Anaphora Resolution to Improve Opinion Target Identification in Movie Reviews”, Proceedings of the ACL 2010 Conference Short Papers, 263-68.

KAPLAN D., IIDA R., TOKUNAGA T., 2009, « Automatic Extraction of Citation Contexts for Research Paper Summarization : A Coreference-chain based Approach, Proceedings of the 2009 Workshop on Text and Citation Analysis for Scholary Digital Libraries, ACL-IJCNLP 2009.

KHUDYAKOVA M., DOBROV G., KIBRIK A. A., LOUKACHEVITCH N.V., 2011, “Computational Modeling Of Referential Choice: Major And Minor Referential Option” In Production of Referring Expressions: Bridging the gap between computational, empirical and theoretical approaches to reference. Boston.

LEE K., HE L., LEWIS M. & ZETTLEMOYER L., 2017, End-to-end Neural Coreference Resolution, In: Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP 2017), Copenhagen, Denmark, pp. 188-197.

LEVESQUE H.J., DAVIS E. & MORGENSTERN L., 2011, “The Winograd Schema Challenge”, In Proceedings of the Thirteenth International Conference on Principles of Knowledge Representation and Reasoning.

LONGO L., 2013, Vers des moteurs de recherche « intelligents » : un outil de détection automatique de thèmes. Méthode basée sur l’identification automatique des chaînes de référence, Thèse de doctorat, Université de Strasbourg.

LONGO L., TODIRAŞCU A., 2010, Genre-based Reference Chains Identification for French, Investigationes Linguisticae, Volume XXI, pp. 57-75.

LONGO L., TODIRAŞCU A., 2011, RefGen: Identifying Reference Chains to Detect Topics, in Studies in Computational Intelligence, volume 361, chapitre 3, pp. 27-40, Ed.: Kacprzyk, J., “Advances in Intelligent and Soft Computing”, Springer Verlag.

MACCARTHY J.F., LEHNERT W. G., 1995, “Using Decisions Tress for Coreference Resolution”, Proceedings of the 14th International Joint Conference on Artificial Intelligence (IJCAI’95), Morgan Kaufmann Publishers Inc. San Francisco, 1050-55.

MARKERT K., NISSIM M. & MODJESKA N.N., 2003, Using the Web for the Nominal Anaphora Resolution, Proc. EACL Workshop on the Computational Treatment of Anaphora, Budapest, Hungary.

MITKOV R., 1999, “Anaphora Resolution : The State of Art”, Working paper, (Based on the COLING'98/ACL'98 tutorial on anaphora resolution), University of Wolverhampton, Wolverhampton.

MITKOV R., EVANS R., ORASAN C., BARBU C., JONES L. & SOTIROVA V., 2000, “Coreference and anaphora : developping annotating tools, annotated resources and annotating strategies”, Proceedings of the Discourse Anaphora and Anaphora Resolution Colloquium (DAARC'2000), Lancaster, UK, 49-58.

NG V., 2007, « Shallow Semantics for Coreference Resolution », International Joint Conference on Artificial Intelligence (IJCAI), Hyderabad, India, pp. 1689-1694.

ORASAN C., CRISTEA D., MITKOV R. & BRANCO A., 2008, Anaphora Resolution Exercise – an overview. Proceedings of 6th Language Resources and Evaluation Conference (LREC2008), Marrakesh, Morocco, 28 – 30 May.

PITLER E. & NENKOVA A., 2008, “Revisiting Readability: A Unified Framework for Predicting Text Quality”, Proceedings of the 2008 Conference on Empirical Methods in Natural Language Processing, pp. 186-195.

POESIO M., PONZETTO S.P. & VERSLEY Y., 2010, Computational Models of Anaphora Resolution: A Survey. Manuscrit non publié disponible sur la page Web des auteurs.

POIBEAU T., 2011, Traitement automatique du contenu textuel. Hermès-Lavoisier, Paris, 200 pages.

POIBEAU T., 2009, “Boosting the Robustness of a Named Entity Recognizer”. In the International Journal of Semantic Computing. World Scientific, 3/1, 91–104.

RAGHUNATHAN K., LEE H., RANGARAJAN S., CHAMBERS N., SURDEANU M., JURAFSKY D. & MANNING C., 2010, « A Multi-Pass Sieve for Coreference Resolution ». In : Conference on Empirical Methods in Natural Language Processing (EMNLP), MIT, Massachusetts.

RECASENS M., CAN W. & JURAFSKY D., 2013, « Same Referent, Different Words: Unsupervised Mining of Opaque Coreferent Mentions », In : Proceedings of Human Language Technologies: The 11th Annual Conference of the North American Chapter of the Association for Computational Linguistics (NAACL-HLT), pp. 897-906, Atlanta, Georgia.

RECASENS POTAU M., 2010, Coreference : Theory, Annotation, Resolution and Evaluation, PhD, Barcelona, University of Barcelona.

SCHERRER Y., RUSSO L., GOLDMAN J.-P., 2011, “La traduction automatique des pronoms. Problèmes et perspectives”. Actes de TALN 2011.

SONG Y., JIANG J., XIN ZHAO W., LI S., & WANG H., 2012, "Joint learning for coreference resolution with Markov logic", Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (EMNLP-CoNLL '12), Jeju Island, Korea, 1245-1254.

STEINBERGER J., KABADJOV M., POESIO M., SANCHEZ-GRAILLET O., 2005, “Improving LSA-based Summarization with Anaphora Resolution, in Proceedings of Human Language Technology Conference and Conference on Empirical Methods in Natural Language Processing, 1-8.

STOYANOV V., CARDIE C., GILBERT N., RILOFF E., BUTLER D. & HYSOM D., 2010, « Coreference Resolution with Reconcile », In : Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics (ACL), Uppsala, Sweden.

SWALES J., 1990, Genre Analysis: English in academic and research settings, Cambridge, Cambrige U.P.

TELLIER I., ESHKOL I., TAALAB S., PROST J-P., 2010, “ POS-tagging for Oral Texts with CRF and Category Decomposition”, Research in Computing Science, special issue "Natural Language Processing and its Applications", 46, 79-90.

TELLIER I. & STEEDMAN M., 2010, « Apprentissage automatique pour le TAL », TAL 50-3, 7-21.

WISEMAN S., RUSH A., SHIEBER S. & WESTON J., 2015, Learning Anaphoricity and Antecedent Ranking Features for Coreference Resolution, In: Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics, Beijing, China, pp. 1416-1426.

ZHEKOVA D. & KÜBLER S., 2013, « Machine Learning for Mention Head Detection in Multilingual Coreference Resolution », In : Proceedings of Recent Advances in Natural Language Processing (RANLP-2013), pp. 747-754, Hissar, Bulgaria.

Haut de page