Publication des corpus CEFC et CEFC-gold

Les deux corpus CEFC et CEFC-gold resultants du projet ANR ORFEO dirigé par Jeanne-Marie Debaisieux et porté par le Lattice viennent d'ëtre publiés.

Le CEFC est le résultat du projet ANR Orféo (Outils et Recherches sur le Français Écrit et Oral) dirigé par Jeanne-Marie Debaisieux et porté par le Lattice. Le CEFC est un corpus de près de 10 millions de mots, 4 millions pour la partie orale et 6 millions pour la partie écrite. Il est disponible sur la plateforme ortolang à l’adresse :
https://www.ortolang.fr/market/corpora/cefc-orfeo
Le CEFC-gold est un corpus d’entraînement de 172 000 mots constitué à partir d’extraits représentants l’essentiel des genres présents dans le CEFC. Il a fait l’objet d’un traitement automatique suivi d’une validation et d’une correction manuelle. Il est disponible sur la plateforme Orféo à l’adresse :
https://www.ortolang.fr/market/corpora/cefc-gold

A lire aussi