Supervisory authorities

CNRS ENS Université Paris 3 USPC PSL

Our partners

Labex Transfers Labex EFL Labex Transfers

Search





Home > Research topics > Axe 3 : Corpus, modélisations et traitements automatiques

Axe 3 : Corpus, modélisations et traitements automatiques

1. Contexte

Le constat d’une augmentation de la masse de textes disponible sur support informatique est désormais bien établi. Dans ce contexte, l’axe « Corpus, modélisations et traitements automatiques » vise à développer des recherches permettant de tirer parti de cette masse de données, à des fins tant théoriques que pratiques. Il s’agit ainsi de répondre à des besoins exprimés dans le monde social et économique, mais aussi d’étendre le champ de nos connaissances sur la langue elle-même.

Cet axe de recherche s’appuie sur les chercheurs en traitement des langues du laboratoire Lattice, en collaboration avec l’ensemble des linguistes intéressés par les questions de modélisation. Les membres du laboratoire ont publié récemment des articles dans les conférences et les revues les plus sélectives du domaine (par ex. COLING, EMNLP) et le Lattice permet de développer ces recherches dans un cadre réellement pluridisciplinaire. Cet axe s’est récemment enrichi de l’arrivée de plusieurs chercheurs très actifs sur la scène nationale et internationale, et il s’agit là d’un élément de développement majeur du Lattice.
Cet axe est supporté par des projets financés et les deux thèses actuellement en cours sont elles aussi financées (bourse régionale, projet Quaero). Le Lattice est actif au sein de l’axe 5 du labex EFL consacré au TAL. La recherche de financement et de partenariats sera poursuivie durant le quinquennal, et nous approfondirons bien évidemment les partenariats déjà en cours. Enfin, les membres du laboratoire sont actifs dans plusieurs formations de Master sur ce domaine, tant à Paris 3 que dans d’autres universités parisiennes ou étrangères (notamment à l’U. de Cambridge).

2. Présentation synthétique de l’axe

L’axe « Corpus, modélisations et traitements automatiques » vise l’étude de la langue à partir de modélisations informatiques. Ces modélisations reposent sur des connaissances linguistiques (par ex. des lexiques et/ou des grammaires) ou encyclopédiques (par ex. des ontologies) déjà disponibles mais, aussi et surtout, sur la masse de textes disponibles afin d’en tirer des connaissances nouvelles. Cet aspect dynamique — le système s’enrichissant de nouvelles connaissances au fur et à mesure de l’analyse — nécessite d’avoir recours à des méthodes d’apprentissage artificiel. Ces méthodes informatiques permettent en effet de généraliser les observations faites à partir d’exemples attestés en corpus afin d’en fournir une description opérationnelle compacte, ou d’évaluer la probabilité d’apparition de nouvelles données non observées jusque là. Cet axe vise donc à mêler étroitement modélisation linguistique, apprentissage artificiel, et implémentation informatique.

Les implémentations informatiques peuvent avoir deux objectifs : dans certains cas, il s’agit de réaliser des systèmes opérationnels répondant à un objectif précis. C’est par exemple le cas quand le but est d’extraire de l’information de grandes masses de données textuelles en biologie ou quand il s’agit d’analyser des prises de positions et des opinions exprimées par des bloggeurs sur le Web. Dans d’autres cas, le but du travail de modélisation est de valider des hypothèses linguistiques. L’implémentation vise alors à rendre compte pratiquement des hypothèses linguistiques émises en les testant sur des données représentatives et si possible attestées. C’est ce type de recherche dont il est question quand on cherche à modéliser, par exemple, des phénomènes linguistiques liés à l’évolution des langues. Dans ce type de problèmes, un grand nombre de facteurs interagit et de nombreuses hypothèses ont été formulées par les linguistes. Le modèle informatique vise à évaluer ces hypothèses, à les reconsidérer et à en formuler de nouvelles afin de rendre compte au mieux de la réalité observée.

Ces recherches nécessitent de proposer des modèles explicites de divers phénomènes linguistiques. Ces modèles ne permettent jamais de rendre compte complètement de la réalité linguistique dans la mesure où celle-ci est infiniment complexe et variée. Un point majeur de cet axe est un souci de réflexivité : nous voulons développer une réflexion sur les limites des modèles proposées et sur les raisons fondamentales de ces limites. Cette réflexion porte à la fois sur les modèles en jeu (qu’est-ce qu’un modèle dynamique du sens ? Comment le contexte agit-il dans la détermination du sens ?) et sur le caractère souvent très opératoire du TAL (quelles sont les conséquences de ce caractère fondamentalement pragmatique ? Comment peut-on élaborer des systèmes reprenant des théories de manière partielle et même parfois contradictoires ?).
Au-delà des linguistes informaticiens du laboratoire, cet axe implique la plupart des chercheurs du laboratoire intéressés par la modélisation, la formalisation et les limites de celle-ci. Les phénomènes abordés s’étendent de l’étude de l’évolution des langues (passage des cas aux prépositions et vice versa dans différentes langues du monde) à la modélisation des thèmes abordés dans les réseaux sociaux (en collaboration avec l’Institut des Systèmes Complexes de Paris-Ile de France) en passant par une réflexion linguistique et philosophique sur la notion de contexte et de compositionnalité.

3. Thèmes de recherche

This section doesn't contain any article.