Généralités

Enseignant Pascal Amsili
Code LYST001, Ancien intitulé "Fouille de Textes"
Lien iCampus https://icampus.univ-paris3.fr/course/view.php?id=22871
Créneau Jeudi 14h30-16h30, salle Brunot (ILPGA). Premier cours: jeudi 23 septembre.
Organisation « Présentiel intégral »: les effectifs devraient permettre que le cours se tienne en présentiel.
Contenu Partie "fondamentale" : sémantique distributionnelle, un peu d'algèbre linéaire (réduction de dimensionalité, opérations sur les vecteurs...), et plongements lexicaux (de Word2vec à BERT)
Partie "applicative" : tâches de sémantique computationnelle : résolution de coréférences, détection des inférences naturelles (RTE/NLI)

Contrôles

Modalités Un devoir à rendre chaque semaine pendant 8 semaines 4 semaines (50%); puis un petit projet ou un compte-rendu de lecture (50%).
HW #1
23/09→30/09
Un graphe lexical centré sur le mot/sens de votre choix, comprenant au moins 20 noeuds et 4 types de relations différentes. Sources possibles: wordnet, framenet, etc.
HW #2
30/09→07/10
Recherche d'occurrences du motif "ce n' est pas un" dans frWaC, et annoter 30 occurrences prises au hasard pour répondre à la question: dans combien de cas le pronom ce réfère-t-il à un individu ou un concept similaire à celui du terme nié ?. Annotez les données dans un tableur et précisez les différentes catégories d'annotation choisies.
HW #3
07/10→14/10
A partir des données SimLex-999 téléchargeables ICI, choisir cinq paires de mots concrets ayant une distance supérieure à 9, et cinq paires ayant une distance inférieure à 2. Pour chacune de ces paires, relever les différentes mesures de distance lexicale disponible dans l'implémentation nltk de wordnet. Il faut bien sûr préalablement installer nltk. Le résultat à produire est une table avec les 10 paires en ligne, et en colonne: la distance SimLex-999 et les valeurs obtenues pour les 3 mesures de similarité implémentées dans nltk (path/lch/wup).
HW #4
14/10→21/10
Construire une matrice Terme-Terme avec des fréquences brutes, en choisissant 5 lemmes qui correspondront à la fois aux lignes et aux colonnes; les fréquences seront obtenues dans le corpus de votre choix (par exemple frWaC). Choisir ensuite deux des lemmes comme formant un espace à deux dimensions, et représenter graphiquement les autres lemmes dans cet espace. Faire la même opération pour trois espaces différents. La représentation graphique peut se faire à la main sur papier quadrillé (on ne cherche pas la précision du dessin), ou en utilisant comme base le petit script python ici.
Mini-projet pluriTAL Comparaison de trois types de vecteurs distributionnels et évaluation qualitative.
On demande de construire des vecteurs distributionnels avec trois types de méthodes: (A) des vecteurs distributionnels épars obtenus par comptage de fréquence en corpus (et normalisation éventuelle); (B) les vecteurs précédent après réduction de dimensionalité; (C) des vecteurs de type word2vec ou fasttext obtenus sur les mêmes corpus.
Pour comparer les espaces vectoriels obtenus, on procéde à une évaluation qualitative: en prenant un choix de 25 mots-cibles comme référence, on va comparer, qualitativement, les k plus proches voisins de chacun de ces mots-cible avec chacun des embeddings (en fixant la distance cosinus).
On demande un petit rapport décrivant le travail accompli, les choix effectués et les difficultés rencontrées; l'évaluation qualitative doit être détaillée dans le rapport, qui devra contenir aussi une discussion sur les leçons tirées de l'évaluation. En annexe on fournira le code (commenté), les données, des traces d'execution éventuelle. L'article (Pierrejean & Tanguy 2018) peut constituer une source d'inspiration.
Le travail doit être rendu au plus tard le 16 janvier 2022, déposé sur iCampus (avant 23h59). Tout plagiat, aussi minime soit-il, sera réprimé avec la plus grande sévérité.
Fiche de lecture hors pluriTAL Une fiche de lecture sur un article portant sur le TAL ou la sémantique computationnelle.
On demande un texte de 5 à 10 pages, dactylographié, qui présente le projet de l'article, sa thèse principale (ou ses principaux résultats), et les arguments employés. Il est important que l'essai soit critique: la démarche critique ne consiste pas à exprimer une opinion à propos du texte (ou de dire s'il nous a plu) mais à tenter de remettre en question autant que possible les affirmations du texte en convoquant d'autres exemples ou d'autres sources. Le travail doit être rendu au plus tard le 16 janvier 2022, sous la forme d'un fichier pdf, qui sera déposé sur iCampus. Tout plagiat, aussi minime soit-il, sera réprimé avec la plus grande sévérité.
Résultats notes (consignes)

Séances

2021-09-23 Ch1. Sémantique Distributionnelle
1. Sémantique lexicale
diapos de support
2021-09-30 Ch1. Sémantique Distributionnelle
1. Sémantique lexicale (suite)
diapos de support
à propos de l'antonymie, nous évoquerons brièvement ces deux articles: (Mohammad et al, 2013), et (Kruszewski et al, 2016).
2021-10-07 Ch1. Sémantique Distributionnelle
1. Sémantique lexicale (fin)
2. Hypothèse distributionnelle

diapos de support (§1)
diapos de support (§2)
2021-10-14 Ch1. Sémantique Distributionnelle
2. Hypothèse distributionnelle (suite)
diapos de support;
polycopié fin du chapitre
2021-10-21 Séance annulée pour cause de deuil
2021-10-28 Séance annulée pour cause de deuil
2021-11-04 Pas de séance
2021-11-11 Pas de séance (jour férié)
2021-11-18 3. Bases mathématiques diapos de support
2021-11-25 4. Réduction de dimensionalité diapos de support
2021-12-02 5. Plongements lexicaux
2021-12-09 5. Plongements lexicaux
6. Application des plongements
diapos de support
2021-12-16 6. Application des plongements diapo de support

Pointeurs en lien avec le cours

Pointeurs généraux

  • La revue scientifique (ephémère) « Linguistic Issues in Language Technologies » présente des travaux intéressants portant sur la relation entre linguistique et TAL. Le numéro spécial Interaction of Linguistics and Computationnal Linguistics, paru en 2011, contient un lot d'articles intéressants et toujours d'actualité en grande partie.
  • L'ATALA publie depuis 1960 la revue TAL (Traitement Automatique des Langues), qui est en ligne et en accès libre depuis 2006. Si beaucoup d'articles comportent une certaine dimension technique, on trouve aussi des textes plus accessibles au non spécialiste, que ce soit des articles de synthèse ou des discussions.
  • L'ATALA organise depuis 1994 la conférence TALN qui est un lieu de rencontre de la communauté (essentiellement francophone) du TAL. Les communications à ces conférences sont systématiquement sélectionnées et publiées sous formes d'articles courts de 6 à 12 pages, qui ne sont malheureusement pas encore rassemblés sur un site unique, mais qui sont assez facile à trouver, en particulier pour les dernières années, sur les sites respectifs de chaque édition.
  • Conférences en TAL/NLP les plus importantes.