:: Enseignements :: Master :: M2 :: 2007-2008 :: Méthodes statistiques pour le traitement de documents ::
[LOGO]

Classication supervisée de textes


Dans ce td, nous proposons d'implémenter deux classicateurs de textes : l'un utilisant la méthode du Perceptron, l'autre utilisant la méthode K-NN.

Préliminaires

Pour cette séance, vous avez à disposition une archive comprenant une collection de dépêches Reuters. Cette collection de textes bruts a été extraite automatiquement de la collection Reuters-21578. Ces dépêches sont classées en catégories. Pour ce TP, nous n'en considérons que trois : sugar, coffee et gas. Le fichier sugar-coffee-gas-docs.lst contient la liste des dépêches appartenant à l'une de ces trois catégories. A chaque texte, sont associés la ou les catégories auxquels il appartient.

Vous utilisez les deux premiers tiers des textes pour la phase d'apprentissage et le tiers restant pour la phase d'évaluation.

Pour l'implémentation, vous utiliserez les langages Python ou Java. N'hésitez pas écrire différentes classes représentant par exemple les textes, la collection de textes, les catégories, etc.

Exercice 1 - Représentation du texte et réduction de l'espace

Exercice 2 - Méthode du barycentre

Implémenter l'algorithme du barycentre vu en cours que vous adapterez aux trois catégories. Tester et évaluer.

Exercice 3 - Algorithme du K-NN

Implémenter l'algorithme du K-NN vu en cours que vous adapterez aux trois catégories. Tester et évaluer. Comparer avec les résultats de la méthode du barycentre.