TP4 - n-grammes et étiquetage morpho-syntaxique simple



Préliminaires

Pour cette séance, vous avez à disposition une collection de textes étiquetés manuellement en catégorie grammaticale : suzanne.zip.

Exercice 1 - n-grammes de lettres

Dans cet exercice, l'unité minimale de traitement est le caractère.


Exercice 2 (bonus) - Étiquetage morphosyntaxique simple

Pour cet exercice, on divise la collection de textes étiquetés en deux corpus : un corpus d'apprentissage (fichiers A01.txt, A02.txt, ..., A14.txt) et un corpus d'évaluation (A19.txt et A20.txt).