Accueil > Thèmes de recherche > Méthodes et outils

Méthodes et outils

par webmestre - publié le

Choix méthodologiques en matière de linguistique de corpus

Les travaux conduits dans les différentes opérations seront fondés sur des corpus de données textuelles élaborés en vue de recueillir le maximum d’emplois des formes étudiées. Ces bases de données seront diversifiées en fonction des types (descriptif, narratif, expositif) et genres de textes (articles de recherche scientifique, articles de presse, œuvres littéraires) couramment admis dans les études de corpus. Le choix de constituer des corpus spécifiques ciblés sur des formes déterminées tient, d’une part, au fait que l’on ne dispose pas, pour le français, d’une base de données comparable au British National Corpus, et, d’autre part, au fait que, même si de telles données existaient, on pourrait toujours argumenter qu’elles ne reflètent pas complètement la diversité des usages du français. Pour les études interlangues, on utilisera des corpus dits comparables plutôt que des corpus de traduction. Pour l’étude de l’évolution en diachronie des expressions et constructions abordées dans les différentes opérations, les corpus, aussi bien que les annotations qui leur seront ajoutées, seront établis en fonction des hypothèses sur leurs changements fonctionnels.

A cette façon désormais classique d’aborder les corpus nous proposons d’ajouter des données recueillies par le biais d’expérimentations psycholinguistiques, en l’occurrence des données produites par des sujets en réaction à des stimuli verbaux dans des situations de test. La nécessité de recueillir des données comportementales de ce type s’impose en effet d’autant que, pour l’étude de certaines formes, les informations que l’on peut tirer de corpus d’usages ne permettent pas d’infirmer ou de confirmer les hypothèses que l’on souhaite tester. Il en va ainsi pour tous les cas où ces formes n’ont pas atteint un stade de grammaticalisation où leur usage serait limité par des restrictions de sélection affectant leur probabilité d’occurrence. Les cas de ce type sont extrêmement courants. C’est notamment ce qui se passe avec les expressions anaphoriques dites libres qui se prêtent à des interprétations apparemment très ouvertes et donc peu détectables statistiquement, mais qui peuvent exiger des coûts de traitement très différents, d’où la nécessité de recourir à des moyens d’investigation permettant de faire apparaître les différences entre ces coûts. Le laboratoire a commencé à développer des projets en collaboration dans ce domaine. Il est désormais en mesure de mener à bien des expérimentations psycholinguistiques avec l’auto-présentation segmentée et il souhaite continuer dans cette voie. Plusieurs opérations prévoient de recourir à cette méthodologie, d’autres investigations, impliquant des moyens plus sophistiqués comme les mouvements oculaires, seront développées en collaboration avec des laboratoires spécialisés, notamment de Paris V (J.Pynte), Paris VIII (S.Colonna) et Louvain la Neuve (Y.Bestgen et S.Piérard) avec lesquels des liens existent déjà pour la conduite du projet ANR SFA.

Développement de ressources et d’outils de traitement automatique pour l’analyse linguistique

Abordés ainsi que l’on vient de l’indiquer, les travaux prévus dans les opérations seront complétés et accompagnés par la conception et l’exploitation d’outils TAL pour l’analyse linguistique, dans l’esprit de ce que B. Habert appelle la "linguistique à l’instrument" (cf. "Portrait de linguiste(s)", www.revue-texto.net). L’idée générale est de développer des programmes informatiques qui aident le linguiste dans son travail sur corpus, en lui permettant (1) d’extraire et d’examiner toutes les occurrences du phénomène linguistique qu’il étudie, (2) d’annoter chaque exemple de manière détaillée (formes de surface présentes, constructions syntaxiques, marques intonatives, valeurs sémantiques de ces différents éléments), et enfin (3) de mettre en évidence des corrélations entre les traits ainsi dégagés, sous forme de règles ou de tendances statistiques.

Le laboratoire a commencé à développer durant le précédent quadriennal de tels systèmes (Analor) pour l’analyse de l’intonation et pour l’analyse sémantique de marqueurs grammaticaux (Anasem). Dans le projet soumis, nous nous proposons de développer de manière très systématique ces outils (notamment en y adjoignant la syntaxe, grâce à l’intégration de l’analyseur Syntex développé par D. Bourigault) en construisant une plate-forme logicielle dans laquelle seront réunis tous ces outils. Cet "instrument" sera utilisé dans la plupart des travaux menés dans le laboratoire, ce qui permettra de l’affiner et de l’améliorer en l’ajustant aux besoins de chaque étude, l’objectif à terme étant, plus largement, d’offrir à la communauté des linguistes un système de qualité, avec un grand éventail d’utilisations.