TP4 - n-grammes et étiquetage morpho-syntaxique simple
Consignes :
- Le TP noté dure 2h et doit être effectué seul
- A la fin du TP, vos programmes doivent être envoyés dans une archive zip à
l'adresse sigogne@univ-mlv.fr
Préliminaires
Pour cette séance, vous avez à disposition une collection de textes
étiquetés manuellement en catégorie grammaticale :
suzanne.zip.
Exercice 1 - n-grammes de lettres
Dans cet exercice, l'unité minimale de traitement est le caractère.
-
question(); ?>Écrivez une fonction qui prend
comme paramètre un nom de fichier texte, compte et stocke les unigrammes de lettres de ce fichier.
- question(); ?>Écrivez une autre fonction qui stocke
et compte les bigrammes de lettres de ce fichier.
- question(); ?>Écrivez encore une autre fonction
qui stocke et compte les trigrammes de lettres de ce fichier.
- question(); ?>Écrivez une fonction qui prend
comme paramètres une chaîne de caractères prefix et trois éléments
représentant les unigrammes, bigrammes et trigrammes calculés dans les trois
questions précédentes, et renvoie la lettre suivante la plus probable
étant donné prefix.
Le paramètre prefix correspond à une séquence de lettres déjà
tapées par un utilisateur.
-
Étant donné un mot avec une lettre manquante marquée par le symbole *,
question(); ?>écrivez une fonction qui permet
de prédire cette lettre.
Exercice 2 (bonus) - Étiquetage morphosyntaxique simple
Pour cet exercice, on divise la collection de textes étiquetés en deux corpus :
un corpus d'apprentissage (fichiers A01.txt, A02.txt, ...,
A14.txt) et un corpus d'évaluation (A19.txt et A20.txt).
- Pour chaque mot du corpus d'apprentissage, question(); ?>calculez
son étiquette la plus fréquente.
- question(); ?>Écrivez une fonction qui prend un texte en entrée et
assigne à chacun de ses mots son étiquette la plus fréquente, s'il est trouvé
dans le corpus d'apprentissage.
- question(); ?>Écrivez une fonction qui prend un texte en entrée et un entier n,
et assigne à chacun de ses mots une étiquette calculée par une méthode utilisant des n-grammes.