:: Enseignements :: Master :: M2 :: 2008-2009 :: Traitement Automatique des Langues ::
![[LOGO]](http://igm.univ-mlv.fr/ens/resources/mlv.png) | Regroupement de mots |
Dans ce TD, nous verrons comment regrouper automatiquement les mots d'un texte par similarité sémantique.
Préliminaires
Pour cette séance, vous avez à disposition un corpus se trouvant dans le fichier /home/ens/mconstan/corpus/french/lm94.u8.
Ce fichier contient un ensemble d'articles du journal Le Monde, mis bout à bout.
Si vous souhaitez travailler sur l'anglais, vous pouvez aussi utiliser le corpus /home/ens/mconstan/corpus/english/nyt.u8 qui contient un ensemble d'articles du journal New York Times.
Exercice 1 - Calcul des meilleurs cooccurrents
- Pour chaque mot du texte, vous calculerez le nombre de paragraphes où il apparaît.
- Pour chaque phrase du texte, gardez les mots qui apparaissent dans moins de n % des paragraphes (Critère C).
La valeur n sera un paramètre de votre programme.
Le découpage en phrases du texte pourra être "approximatif".
-
Une phrase est désormais considérée comme l'ensemble de ses mots satisfaisant le critère C.
Pour chaque mot du texte, donner les m mots qui apparaissent le plus souvent avec lui dans une phrase.
La valeur m sera un paramètre de votre programme.
- Modifier le code précédent pour garder les m mots qui ont les meilleurs poids de cooccurrence (calculés avec la formule de Dice).
- Stocker les informations dans un fichier : pour chaque mot satisfaisant le critère C, nombre de paragraphes dans lequel il apparaît et l'ensemble de ses meilleurs cooccurrents.
Exercice 2 - Regroupement des mots d'un texte
- Ecrire une fonction qui charge en mémoire le fichier contenant les informations calculées dans l'exercice précédent.
- Calculer la similarité entre deux mots. On considèrera que la similarité entre deux mots est le nombre de meilleurs cooccurents qu'ils ont en commun.
- Etant donné un texte, calculer le graphe de similarité entre ses différents mots.
On ne gardera les arcs du graphe ayant une valeur de similarité supérieure à un seuil s.
- Trouver les composantes connexes de ce graphe.
- Essayer sur plusieurs dépêches AFP. Qu'observez-vous?
© Université de Marne-la-Vallée