Accueil > Thèmes de recherche > Axe 3 : Corpus, modélisations et traitements automatiques

Traitements automatiques et applications

par Thierry POIBEAU - publié le

Cette opération regroupe l’ensemble des recherches en matière de traitement automatique des langues menées au sein du laboratoire. On s’intéresse essentiellement à des questions d’extraction d’information et plus généralement d’acquisition de connaissances à partir de corpus (Poibeau, 2011).
Les techniques employées sont diverses. L’apprentissage artificiel tient un rôle particulier dans nos approches (Gaussier & Yvon, 2011), de même que la manipulation de connaissances riche et complexes (bases de connaissances extérieures, ontologies) éventuellement dépendant du domaine considéré (typiquement, la biologie). Une part importante des recherches se situe à l’interface de ces différents domaines : comment concevoir un modèle d’analyse efficace, prenant en compte les différents paramètres en jeu, avec souvent peu d’exemples (données annotées) disponibles ?

Les applications sont de plusieurs ordres mais concernent essentiellement (Poibeau et al., 2012) :

  • L’annotation de corpus (reconnaissance des entités nommées, des relations prédicatives, etc.) ;
  • L’extraction d’information de nature lexicale (schémas de sous-catégorisation, restriction de sélection)
  • L’extraction d’informations spécifiques à un domaine donné (par exemple en biologie, l’extraction d’interaction géniques).

Les modélisations permettront de réfléchir sur les modèles linguistiques sous-jacents. Ainsi l’analyse des cadres de sous-catégorisation permet de rendre compte du continuum entre arguments et modifieurs par des indications de co-présence et de fréquence. Pour prendre un autre exemple, l’analyse de textes de biologie amène à considérer des modèles de traitements dans lesquels connaissances linguistiques et connaissances sur le monde interagissent étroitement.

Enfin, l’analyse automatique des textes ne se limite plus seulement à l’opérationnalisation des niveaux standards de la linguistique (analyses lexicale, syntaxique, sémantique). Depuis quelque temps, la dimension subjective des textes est devenue un sujet d’étude important en TAL. Dans ce cadre, on cherche à écrire des programmes capables d’identifier les (portions de) textes porteurs d’opinions, d’évaluation ou de jugements, et de caractériser leurs propriétés (qui parle, de quoi, et quelle est la nature de la prise de position énoncée). Ce thème a de nombreux intérêts pratiques : recommandation personnalisée de produits, suivi de fils de discussions numériques (débats, controverses).

On travaillera autant que faire se peut avec des équipes qui pourront compléter les forces limitées du laboratoire (Institut des Systèmes Complexes de Paris-ile de France, Laboratoire d’informatique de l’ENS). Des collaborations existent déjà avec l’ISC-PIF, l’INRA, des entreprises comme Arisem, etc.