:: Enseignements :: Master :: M2 :: 2007-2008 :: Traitement Automatique des Langues ::

Extraction de mots-clés dans les textes

Le but de ce projet est d'extraire automatiquement des mots-clés (les mots les plus importants) d'un texte (en anglais, en français et en espagnol). Le programme rendu devra implémenter un algorithme basé sur une matrice de similarité entre les mots qui aura été automatiquement apprise sur de gros corpus.

Calcul de la matrice de similarité

Ecrire un programme calculant une matrice de similarité pour un corpus donné en entrée, et la sauvegardant dans un fichier. Une matrice de similarité indique pour chaque paire de mots dans quelle mesure ils sont sémantiquement proches. Il vous est demandé de calculer trois matrices, une pour les trois langues traitées (anglais, espagnol, français). Le calcul de ces matrices devra se basera sur les corpus encodés en UTF-8 se trouvant dans le répertoire :
/home/ens/mconstan/corpus

Vous pourrez effectuer les prétraitements que vous souhaitez sur les textes. Cependant, la lemmatisation est obligatoire. Vous devrez sélectionner une mesure de similarité pertinente et trouver une représentation de la matrice économe en espace mémoire et efficace pour les calculs.

Extraction des mots-clés

Ecrire un programme prenant en argument un texte, et extrayant de ce texte des mots-clés. Vous vous baserez sur l'idée que plus il existe de termes sémantiquement proches dans le texte, plus ces mots ont des chances d'être importants. Pour cela, vous devrez donc vous servir des matrices de similarité calculées auparavant.

Bonus

Les mots extraits peuvent aussi être des mots composés ou des expressions multi-mots. Dans ce cas, vous pourrez utiliser Unitex et ses dictionnaires. Eventuellement, vous construirez et utiliserez vos propres graphes.

Modalités de rendu

Ce travail est personnel et devra être envoyé par email à Matthieu Constant (mconstan@univ-mlv.fr) et Eric Laporte (eric.laporte@univ-mlv.fr). L'objet de l'email sera "projet TAL M2 - <votre nom>". Il devra inclure en pièce jointe une archive (zip ou tgz) qui contiendra

les deux programmes demandés, en incluant les sources
un rapport de 6 pages maximum qui non seulement décrira votre système, mais aussi expliquera et justifiera les algorithmes utilisés.

Date limite de rendu : mardi 22 janvier 2008, 23h59
Une soutenance de 20 mn par étudiant sera réalisée dans les 15 jours suivant le rendu.