:: Enseignements :: Master :: M2 :: 2007-2008 :: Traitement Automatique des Langues ::

Similarité et clustering de mots

Dans ce TD, nous construirons la matrice de similarité entre les noms d'un corpus. A partir de cette dernière, nous implémenterons un petit programme permettant de regrouper des mots similaires entre eux.

Exercice 1 - Prétraitement

Ecrire une fonction qui prend un texte comme argument et qui retourne la liste des lemmes des noms de ce texte. Pour cela, utiliser l'analyseur morphosyntaxique Treetagger. La commande pour l'utiliser est la suivante :
/home/ens/mconstan/treetagger/tree-tagger-english [<input>]
Vous pouvez utiliser le module python tagging.py.
Ecrire une fonction qui retourne pour un corpus donné une liste de listes de noms lemmatisés. Chaque liste de cette liste correspond à chaque texte du corpus.
Tester sur le corpus reuters du TD précédent.

Exercice 2 - Matrice de similarité

Ecrire une fonction qui calcule la matrice de similarité du corpus reuters. Les lignes et les colonnes correspondent aux noms lemmatisés du corpus. Le poids de cooccurrence entre deux noms est la fonction de Dice (cf. cours). La fenêtre de cooccurrence est un document.

Exercice 3 - Clustering de mots

Ecrire une fonction qui prend un texte comme argument et retourne sa sous-matrice de similarité. La sous-matrice de similarité d'un texte correspond à la matrice de similarité du corpus de référence de laquelle on a enlevé les lignes et les colonnes associées aux noms n'appartenant pas à ce texte.
Ecrire une fonction qui prend un texte en paramètre et qui retourne une liste de groupes de mots similaires. Vous vous basererez sur les deux principes suivants :
- 2 mots sont regroupés si leur similarité est supérieure à un seuil T.
- un mot est ajouté à un groupe de mots si au moins un des membres du groupe a une similarité avec ce mot supérieure à T.
Evaluer empiriquement la valeur de T en appliquant la fonction précédente à plusieurs dépêches.
Trouver un moyen de calculer automatiquement T.