Laboratoire Lattice - UMR 8094
ENS-CNRS
1 rue Maurice Arnoux, 92120 Montrouge

Frédérique Mélanie-Becquet

Ingénieure d’études
CNRS

Je suis Ingénieure d’Études en production, traitement et analyse de données.

La production

… collaborer à la constitution de corpus :

  • Le corpus Democrat (téléchargeable ici)
  • Parasol(A Parallel Corpus of Slavic and other languages)

… créer et formaliser des corpus :

… réaliser des bases de données linguistiques mise à jour en cours :

  • BSP (Base de Syntagmes Prépositionnels)
  • EIOMSIT (Eléments Initiaux, Ordre des Mots, Structures Informationnelle et Textuelle)
  • ETE (Espace Temps Existence)
  • SCF (Structures comparatives en français)

… réaliser la Base de données de la Bibliothèque du Lattice, la BBL.

Le traitement

… nettoyer et formater les données en vue de leur utilisation

  • réalisation de scripts (Perl, Python)

… annoter les données

  • mise en place de structures et formulaires d’annotation (Analec, Php, SQL, Django)
  • utilisation d’outils spécifiques (Sem, TXM, Prodigy,…)
  • implémentation de modèles d’annotation (Prodigy, Spacy)
  • collaboration à la rédaction de manuels d’annotation

… documenter les flux et traitement

  • Créer un modèle d’annotation en Entités Nommées avec Prodigy (notebook)
  • Analyser et visualiser les données d’un csv avec un notebook

L'analyse

… analyser et explorer les données

  • exportation et interprétation des annotations accomplies (Perl, Python)
  • utilisation d’outils spécifiques (Analec, Cortext, RCommander, TXM, …)
  • réalisation de formulaires d’interrogation (dans les bases de données : Php, SQL, Django)

Projets

Participation aux projets…

  • Oupoco : Le projet s’inspire de l’ouvrage de Raymond Queneau Cent mille milliards de poèmes, paru en 1961, qui permet de combiner des vers pour composer des poèmes respectant la forme du sonnet. Le noyau de l’application permet de « générer des poèmes » à la volée à partir des poèmes classiques. Un jeu de contraintes est mis en place pour s’assurer que la structure en rimes est bien respectée. Site du projet
  • Paris Time Machine : le consortium se propose de mutualiser et rendre accessibles les réflexions des équipes qui le composent sur la constitution de référentiels géo-historique. Le groupe Annuaires et Adresses travaille à l’élaboration d’un système d’extraction d’information capable de structurer les ressources numérisées à l’aide d’un modèle d’apprentissage automatique.
  • French BookNLP : le projet porte sur la réalisation d’un modèle d’annotation en entité nommée, chaine de référence et détection de prise de parole dans un corpus littéraire français (Github du projet)
  • Salta (Spatial Asymmetries Across Languages: A Typological Approach).
  • ComPLETE (Complex predicates in languages).
  • Medialex.

Participation à la vie de réseau métiers…

Quelques liens utiles

… quelques références à des sites et outils :

  • Corpus en ligne :
    • ortolang
    • Parasol (A Parallel Corpus of Slavic and other languages)
    • liste de corpus oraux(liste constituée par les membres de Mate-SHS. Merci à eux!)

Mes références bibliographiques HAL :

Voir aussi dans «Ingénieurs»

Fabien GARRIDO Olga Seminck Qi WANG