myriam rakho en fr rakho@univ-mlv.fr

(33) 1 60957717

 
Mon
statut
  
Mon
bureau
  •       Bâtiment Copernic, 4ème étage, bureau 4B045
  •       Laboratoire d'Informatique de l'Institut Gaspard Monge (UMR 8049)
  •       Université Paris-Est Marne-la-Vallée
  •       Cité Descartes
  •       5, boulevard Descartes - Champs-sur-Marne
  •       77454 Marne-la-Vallée Cedex 2
  •       France
 
Mon sujet de thèse
Hybrid Word-Sense Disambiguation using a large-scale MultiWord Expression resource
École doctorale : Information, Communication, Modélisation et Simulation (431)
Unité de recherche : Laboratoire d'Informatique Gaspard-Monge (LIGM), UMR 8049, Équipe Informatique Linguistique
Directeur de thèse : Éric LAPORTE
Co-directeur de thèse : Matthieu CONSTANT
Contact scientifique :  mconstant at univ-mlv dot fr
Description du projet :
  • Le futur de l'Internet est étroitement lié au développement des techniques d'accès au contenu textuel des documents. De nombreux chercheurs du domaine considèrent qu'il passe inévitablement par le développement d'un web sémantique. Celui-ci requiert une annotation automatique de documents selon une ontologie de référence. Cette tâche est rendue difficile par l'ambiguïté naturelle de la langue : dans l'absolu, un mot ou expression peut avoir plusieurs sens (donc être rattaché à plusieurs concepts de l'ontologie). Dans un contexte particulier, il s'agit donc de déterminer son sens.
  •    L'état de l'art en méthodes d'annotation utilise des algorithmes statistiques fondés sur la distribution lexicale ou/et des règles symboliques qui, en particulier, formalisent des parcours de l'ontologie. Par ailleurs, ces méthodes se nourrissent de plus en plus d'outils d'analyse linguistique (analyse morpho-syntaxique et syntaxique). Par contre, elles tiennent encore peu compte des séquences de mots figées (ou unités multi-mots) qui foisonnent dans les textes (25 à 50 % du contenu des textes). Le sens exact de ces séquences n'est pas compositionnel : il ne peut être calculé à partir du sens des différents mots de la séquence (ex. carte bleue, prendre quelqu'un au mot). Cette dernière doit donc être considérée comme une unité de sens.
  •    Dans cette thèse, nous proposons d'intégrer aux procédures classiques des ressources linguistiques tenant compte du figement. Deux problèmes se posent alors : (1) la reconnaissance des unités multi-mots et (2) l'ajustement des modèles statistiques. La reconnaissance des unités multi-mots se basera sur des ressources lexicales à grande échelle telles que les dictionnaires morphosyntaxiques de mots composés, des grammaires locales d'entités nommées et d'expressions semi-figées, et des lexiques syntaxiques de verbes, de noms et d'expressions figées. Alors que les unités multi-mots connexes sont aisément repérées au moyen de techniques d'automates finis, les unités non connexes constituent un verrou à lever. Il s'agira de trouver une approche adéquate.
  •    Par ailleurs, bien que les unités multi-mots soient nombreuses en termes de nombre d'occurrences dans les textes, elles le sont aussi en termes de nombre d'entrées lexicales, ce qui fait qu'une unité donnée est souvent rare, or cela compromet l'apprentissage de son comportement linguistique. Quelques pistes de solutions sont encore insuffisamment explorées. D'abord, certains mots simples contenus dans certaines unités sont pertinents pour le calcul du sens (ex. vin dans vin blanc). Ensuite, une classe d'unités peut aussi être représentée comme un objet unique. Par exemple, ces classes peuvent contenir les différentes variantes flexionnelles d'une expression (carte_bleue = {cartes bleues, carte bleue}), ses variantes syntaxiques (crise immobilière = crise de l'immobilier), voire ses synonymes ( perdre la tête = perdre la boule = devenir fou).
  •    Beaucoup d'informations nécessaires à ce genre d'opérations se trouvent dans les ontologies (ex. liens d'hyperonymie et de synonymie) et autres ressources linguistiques (ex. lemmes, classes lexico-sémantiques). Quant aux informations indisponibles, il s'agira d'élaborer par le calcul des solutions approchées.
  • Cette thèse cherchera à évaluer expérimentalement la validité de l'approche proposée, en la comparant avec les méthodes classiques d'annotation sémantique. Les expériences seront réalisées sur le français et l'anglais. Les outils développés seront évalués sur une ontologie du domaine de l'économie d'énergie qui sera développée pour le projet Doxa (2009-2011, Pôle de Compétitivité Cap Digital) grâce à un partenariat avec EDF. L'évaluation sera complétée sur des réseaux sémantiques pour la langue générale tels que Wordnet pour l'anglais ou WOLF pour le français. La comparaison pourra notamment évaluer l'impact de l'annotation sémantique sur les aides à la traduction.
 
Conférences internationales avec comité de lecture
2012
2010
Communications orales hors conférences
2011
2010
2009
2008
 
Programmation C 1
Vous trouverez sur cette page toutes les informations concernant le TP de Programmation 1. Pensez à la consulter régulièrement
 
Public : Licence 1
Volume horaire : 36h Cours-TD + 24h TP
Cours-TD : Claire David, Matthieu Constant, Samuele Giraudo, Hanane Tafat, Mathieu Chapelle 
Contenu :
  1. Unix : prise en main td-unix  tp1-unix 
  2. Unix : utilisateurs, groupes, permissions tp2-unix 
  3. Compilation, exécution td1-C  tp1-C  exemple.c 
  4. Instructions conditionnelles, boucles, aiguillage td2-C  tp2-C  tp2-2-C 
  5. Fonctions td3-C  tp3-C 
  6. Fonctions transformant la valeur de paramètres td4-C  tp4-C 
  7. Librairie graphique tp5-C 
  8. Tableaux td5-C  tp6-C 
  9. Chaînes de caractères td6-C  tp7-C 
  10. Structures td7-C  tp8-C 
  11. Les sujets des projets
 
Évaluation :
  • Contrôle continu : TD et TP
  • Note finale : examen, CC et projet
 
Programmation C 2
Vous trouverez sur cette page toutes les informations concernant le TD et le TP de Programmation 2. Pensez à la consulter régulièrement
 
Public : Licence 1
Volume horaire : 24h CM + 24h TD + 24h TP
CM :  Marc ZIPSTEIN
Contenu :
  1. td  tp  Rappels
  2. td  tp  Récursivité
  3. td  tp  permutations-corr.c  Récursivité (suite)
  4. td  tp  Tris
  5. td  tp  Ensembles d'entiers, allocation mémoire
  6. td  tp  Ensembles d'entiers, manipulation de fichiers
  7. td  Listes chaînées par pointeurs
  8. td  tp  Liste chaînées et tri fusion
  9. le projet Gestion du trafic aérien d'un aéroport
 
Évaluation :
  • Contrôle continu :
  • Note finale :
 
Algorithmique
Vous trouverez sur cette page toutes les informations concernant le TD et le TP d'Algorithmique. Pensez à la consulter régulièrement
 
Public : IR 1
Volume horaire : 24h CM + 22h TD + 24h TP
CM :  Marc ZIPSTEIN
Contenu :
  1. td  tp  Notions de base
  2. td  tp  Complexité, récursivité
  3. td  tp  Récursivité (suite)
  4. td  tp  Tris
  5. TP noté
 
Évaluation :
  • Contrôle continu :
  • Note finale :
 
Unix/Shell
Vous trouverez sur cette page toutes les informations concernant le TP d'Unix/Shell. Pensez à la consulter régulièrement
 
Public : Licence 2
Volume horaire : 18h CM + 12h TP
CM :  Sylvain CHERRIER
Contenu :
  1. tp  Prise en main du terminal Linux
  2. tp  Programmation shell sous Linux
  3. tp  Programmation shell avancée sous Linux
  4. tp  param.sh  Écriture de scripts shell Linux
  5. TP noté
 
Évaluation :
  • Contrôle continu :
  • Note finale :
 
Ingénierie linguistique
Vous trouverez sur cette page toutes les informations concernant le TP de Ingénierie Linguistique 1. Pensez à la consulter régulièrement
 
Public : Master 1 Ingénierie Informatique
Volume horaire : 24h CM + 12h TP
CM :  Philippe GAMBETTE
Contenu :
  1. tp-1  tokenisation, indexation
  2. tp-2  recherche d'information
  3. tp-3  classification supervisée de textes
  4. tp-4  n-grammes et étiquetage morpho-syntaxique simple
  5. tp-5  étiquetage morpho-syntaxique
  6. tp-6  alignement mot à mot
  7. Le projet
 
Évaluation :
  • Contrôle continu :
  • Note finale :
 
Ressources linguistiques 1
Vous trouverez sur cette page toutes les informations concernant le TP de Ressources Linguistiques 1.
Pensez à la consulter régulièrement
 
Public : Master 1 Ingénierie Informatique
Volume horaire : 24h CM + 12h TP
CM : Tita KYRIACOPOULOU
Contenu :
  1. tp  corrigé  Algorithmes sur les automates
  2. tp  Unitex : recherche de motifs
  3. tp  Unitex : dictionnaires
  4. tp  Expressions figées
  5. tp  Emplois verbaux libres et figés
  6. tp  Le Lexique-Grammaire
  7. tp  Construction de grammaires locales
  8. 2010  2011  Annales de l'examen final
 
Évaluation :
  • Contrôle continu :
  • Note finale :
 
Objectives
My
career
objectives
    »   
  • I'm looking for a 5-year academic post-doctoral position in the field of computational lexical
         semantics. I will be available by September 2013.
    »   
  • I want to use an ensemble framework : data analysis and annotation, transformation and
         representation, machine learning based NLP applications, theorizing
    »   
  • As an empirical basis for the constrastive study of relevant linguistic phenomena for machine
         translation such as lexical polysemy and cross-lingual divergences
My
research
interests
    »   
  • Lexical semantics, computational lexicography, polysemy, sense variation
    »   
  • Distributional semantics, propositional semantics, meaning representation
    »   
  • Empirical corpus-based contrastive studies
    »   
  • Large-scale annotated corpora for multilingual NLP, proposition stores,
          syntactic-semantic lexicons, Lexicon-Grammar tables
    »   
  • Verb Sense Disambiguation and Induction, Semantic Role Labeling, Machine Translation
 
Skills profile
Computer
science
    »   
  • Programming languages: C, Go, Java, Python (NLTK)

  • »   
  • Web development: XHTML/CSS, web design

  • »   
  • OS: Unix (Linux), Windows
NLP
    »   
  • Structural linguistics, Lexical semantics, word meaning representation

  • »   
  • Linguistic annotation of multillingual text corpora

  • »   
  • Word Sense Disambiguation, Word Sense Induction
Languages
    »   
  • French, English, Arabic, Spanish (read)
My
passions
    »   
  • Reading: French and English literature from medieval to 20th period, fiction, biographies
          and autobiographies, historical world fiction, novels and short stories, suspense fiction, essays ;
          Arabic medieval and modern poetry and fiction

  • »   
  • Arts: drawing and painting, graphic design, chinese and arabic calligraphy
 
Employments
2009-
  • Université Paris-Est
  • Doctorante au sein de l'équipe Informatique Linguistique du LIGM
  • Attachée Temporaire d'Enseignement et de Recherche (ATER) au Département d'Informatique
04-09
/2009
04-08
/2008
03-07
/2007
  • Université Paris 13 Villetaneuse
  • Statut : Stagiaire sous la direction de Haïfa Zargayouna
  • Titre : Indexation automatique de documents : développement et expérimentations
06-09
/2006
  • SINEQUA SAS
  • Statut : Stagiaire sous la direction de Frederick Cailliau et Eustache Diemert
  • Titre : Développement du module d'analyse morpho-syntaxique du moteur de recherche Intuition en langue arabe : création d'un stemmer-tokenizer de l'arabe basé sur dictionnaires et règles
2002
-05
  • Université Paris 4 - Sorbonne, Département d'Études arabes et hébraïques
  • Statut : CDD tutorat
  • Tutrice pour étudiants malvoyants
 
Diplômes
2009-
2009
  • Université Paris-Est
  • Master 2 Science Informatique, Filière TAL
2006
  • Université Paris 7 - Jussieu
  • Licence Linguistique et Informatique
2003
  • Université Paris 4 Sorbonne
  • Licence Langues, Littératures et Civilisations étrangères, Spécialité Arabe
UPE
LIGM