La base EIOMSIT

La base EIOMSIT regroupe un ensemble de textes issu de Chambers-Le Baron corpus of Research Articles in French pour lesquels les éléments en zone préverbale ont été annotés.

L’opération EIOMSIT (Eléments Initiaux, Ordre des Mots, Structures Informationnelle et Textuelle) avait pour but l’étude des corrélations entre les éléments initiaux (EI, c’est-à-dire qui précèdent le sujet et/ou le verbe) et certains « faits linguistiques » qui se produisent dans la phrase d’accueil ainsi que dans la séquence textuelle (phrases qui suivent et qui précèdent).

Cette opération a nécessité la création d’une base de donnée. La base EIOMSIT est constituée à partir du corpus Chambers-Le Baron corpus of Research Articles in French. Elle contient environ 266 000 mots, ainsi qu’un ensemble d’annotations manuelles : soit 9750 sujets annotés (ceux correspondants aux critères retenus par le groupe) et 4800 EI.

Lien vers la base :
La base de données complète est actuellement accessible uniquement avec un mot de passe (…en cours d’évolution et d’actualisation…).

Article qui décrit le contenu de la base :
Frédérique Mélanie-Becquet, Sophie Prévost. Eléments initiaux : combinaisons et schémas préférentiels dans un corpus d’articles scientifiques. Corpus, Bases, Corpus, Langage – UMR 7320, 2014, Eléments initiaux dans la phrase : approches inter-genres et inter-langues, pp.29-60. ⟨http://corpus.revues.org/2427⟩.