:: Enseignements :: Master :: M1 :: 2010-2011 :: Ingénierie Linguistique 1 ::
![[LOGO]](http://igm.univ-mlv.fr/ens/resources/mlv.png) | Étiquetage morphosyntaxique |
Modalités de rendu
Pour ce TP, nous vous demandons d'envoyer à Elsa Tolone et Matthieu Constant :
- votre code commenté à l'issue de la séance de TP.
Le nom de la pièce jointe doit contenir "NOM_Prénom_gr1/2".
L'objet de votre mail sera préfixé par "[IL1]".
Préliminaires
Pour cette séance, vous avez à disposition une collection de textes étiquetés manuellement en catégorie grammaticale:
/home/ens/mconstan/tal/suzanne (pour téléchargement,
ici).
Exercice 1 - Étiquetage morphosyntaxique
Pour cet exercice, on divise la collection de textes étiquetés en deux corpus: un corpus d'apprentissage (fichiers A01.txt, A02.txt, ..., A14.txt) et un corpus d'évaluation (A19.txt et A20.txt).
On souhaite déterminer la séquence d'étiquettes la plus probable.
- Implémenter la phase d'apprentissage pour calculer les probabilités d'émission et de transitions.
- Implémenter l'algorithme de Viterbi pour le modèle de Markov caché d'ordre 1.
- Évaluer automatiquement votre étiquetage à partir de ce qui est attendu dans le corpus d'évaluation.
© Université de Marne-la-Vallée