:: Enseignements :: Master :: M2 :: 2007-2008 :: Traitement Automatique des Langues ::
[LOGO]

Similarité et clustering de mots


Dans ce TD, nous construirons la matrice de similarité entre les noms d'un corpus. A partir de cette dernière, nous implémenterons un petit programme permettant de regrouper des mots similaires entre eux.

Exercice 1 - Prétraitement

Exercice 2 - Matrice de similarité

Ecrire une fonction qui calcule la matrice de similarité du corpus reuters. Les lignes et les colonnes correspondent aux noms lemmatisés du corpus. Le poids de cooccurrence entre deux noms est la fonction de Dice (cf. cours). La fenêtre de cooccurrence est un document.

Exercice 3 - Clustering de mots