:: Enseignements :: Master :: M2 :: 2007-2008 :: Méthodes statistiques pour le traitement de documents ::

Classication supervisée de textes

Dans ce td, nous proposons d'implémenter deux classicateurs de textes : l'un utilisant la méthode du Perceptron, l'autre utilisant la méthode K-NN.

Préliminaires

Pour cette séance, vous avez à disposition une archive comprenant une collection de dépêches Reuters. Cette collection de textes bruts a été extraite automatiquement de la collection Reuters-21578. Ces dépêches sont classées en catégories. Pour ce TP, nous n'en considérons que trois : sugar, coffee et gas. Le fichier sugar-coffee-gas-docs.lst contient la liste des dépêches appartenant à l'une de ces trois catégories. A chaque texte, sont associés la ou les catégories auxquels il appartient.

Vous utilisez les deux premiers tiers des textes pour la phase d'apprentissage et le tiers restant pour la phase d'évaluation.

Pour l'implémentation, vous utiliserez les langages Python ou Java. N'hésitez pas écrire différentes classes représentant par exemple les textes, la collection de textes, les catégories, etc.

Exercice 1 - Représentation du texte et réduction de l'espace

Pour chaque texte, calculer pour chaque terme son nombre d'occurrences et son poids logarithmique normalisé.
Pour chaque terme de la collection et chaque catégorie, remplir la table de dépendence puis calculer chi-2.
Pour chaque catégorie, calculer les 20 meilleurs termes selon la valeur du chi-2.

Exercice 2 - Méthode du barycentre

Implémenter l'algorithme du barycentre vu en cours que vous adapterez aux trois catégories. Tester et évaluer.

Exercice 3 - Algorithme du K-NN

Implémenter l'algorithme du K-NN vu en cours que vous adapterez aux trois catégories. Tester et évaluer. Comparer avec les résultats de la méthode du barycentre.