:: Enseignements :: Licence :: L3 :: 2007-2008 :: Introduction à l'informatique linguistique ::
[LOGO]

Racinisation et étiquetage morpho-syntaxique


Ce TP consiste à utiliser un raciniseur de mots utilisant l'algorithme de Porter et un étiqueteur morpho-syntaxique TreeTagger.

Ressources

Pour cette séance, nous vous fournissons un certain nombre de ressources :

Exercice 1 - Manipulation d'un raciniseur

Écrire une fonction qui prend une liste de mots en paramètre et retourne cette même liste de mots racinisés. Vous utiliserez la classe PorterStemmer du module nltk et sa méthode stem qui prend un mot en argument.

Exercice 2 - Manipulation de TreeTagger

La classe taggedText dans le module tagging.py permet de représenter un texte étiqueté par une liste d'unités lexicales (classe lexicalUnit). Une instance peut être créée en chargeant directement le texte étiqueté à partir d'un fichier au format TreeTagger ou d'un fichier texte non étiqueté qui est alors automatiquement étiqueté au moyen de TreeTagger.
  • En utilisant la classe taggedText et ses méthodes, écrire une fonction qui prend un texte en entrée, fait un étiquetage morphosyntaxique au moyen de TreeTagger et l'affiche à l'écran.
  • Modifier le code précédent pour que le texte étiqueté soit sauvegardé dans un fichier au format TreeTagger (attention, il existe une méthode dans la classe!)
  • À quoi correspondent les étiquettes utilisées ?

Exercice 3 - Filtrage