:: Enseignements :: Master :: M2 :: 2007-2008 :: Méthodes statistiques pour le traitement de documents ::
![[LOGO]](http://igm.univ-mlv.fr/ens/resources/mlv.png) | Classication supervisée de textes |
Dans ce td, nous proposons d'implémenter deux classicateurs de textes :
l'un utilisant la méthode du Perceptron, l'autre utilisant la méthode K-NN.
Préliminaires
Pour cette séance, vous avez à disposition une
archive comprenant une collection de dépêches
Reuters.
Cette collection de textes bruts a été extraite automatiquement de la collection
Reuters-21578.
Ces dépêches sont classées en catégories. Pour ce TP, nous n'en considérons que trois :
sugar,
coffee et
gas.
Le fichier
sugar-coffee-gas-docs.lst contient la liste des dépêches appartenant à l'une de ces trois catégories.
A chaque texte, sont associés la ou les catégories auxquels il appartient.
Vous utilisez les deux premiers tiers des textes pour la phase d'apprentissage et le tiers restant pour la phase d'évaluation.
Pour l'implémentation, vous utiliserez les langages Python ou Java.
N'hésitez pas écrire différentes classes représentant par exemple les textes, la collection de textes, les catégories, etc.
Exercice 1 - Représentation du texte et réduction de l'espace
- Pour chaque texte, calculer pour chaque terme son nombre d'occurrences et son poids logarithmique normalisé.
- Pour chaque terme de la collection et chaque catégorie, remplir la table de dépendence puis calculer chi-2.
- Pour chaque catégorie, calculer les 20 meilleurs termes selon la valeur du chi-2.
Exercice 2 - Méthode du barycentre
Implémenter l'algorithme du barycentre vu en cours que vous adapterez aux trois catégories. Tester et évaluer.
Exercice 3 - Algorithme du K-NN
Implémenter l'algorithme du K-NN vu en cours que vous adapterez aux trois catégories.
Tester et évaluer.
Comparer avec les résultats de la méthode du barycentre.
© Université de Marne-la-Vallée