Langue naturelle et représentation des connaissances

Next: Représentation des connaissances et Up: Programmes des cours de Previous: Stages

Langue naturelle et représentation des connaissances

Aujourd'hui, la quasi totalité des textes sont composés par ordinateur, depuis les livres, magazines, journaux et documentations techniques jusqu'au courrier personnel, commercial et administratif. Mais la recherche d'informations textuelles est encore largement limitée aux fiches que bibliothécaires et documentalistes associent au coup par coup à chaque texte et qui comportent : auteur, titre ainsi que les matières, simplement signalées par des mots-clés. Or une nouvelle approche à la recherche d'informations est devenue possible dès lors qu'on dispose des textes sur support informatique. En effet, on peut rechercher à volonté des mots des expressions complexes, individuellement et directement dans le corps des textes. Cette approche est extrêmement puissante et elle se développe rapidement, en même temps que les systèmes d'archivage se multiplient. Les méthodes mettent en jeu des disciplines différentes :

la linguistique : Il est en effet indispensable de disposer de dictionnaires et de grammaires électroniques pour analyser automatiquement des textes quelconques. Ces dictionnaires et grammaires ont une forme nouvelle, ils sont entièrement formalisés et codés, leur contenu linguistique doit être explicite et beaucoup plus précis que celui des mêmes objets à finalité scolaire. Ils sont de grande taille : dictionnaires orthographiques et phonétiques de 700 000 formes pour le francais, 300 000 noms composés (termes techniques), des centaines de milliers d'expressions phrastiques. De tels volumes de données nécessitent des représentations formelles nouvelles, en particulier le concept d'automate fini constitue la base fondamentale de la construction et de la mise en oeuvre des dictionnaires et des grammaires. Par ailleurs, la représentation fine du sens met en jeu des méthodes de l'intelligence artificielle et des sciences cognitives ;
une informatique spécifique : Les algorithmes de recherche de séquences de caractères dans les textes jouent un rôle central dans les procédures utilisées. Ils sont développés en vue de leur application à des textes de la taille de ceux d'une bibliothèque entière, d'où une exigence de performance qui impose le recours au calcul parallèle. De même, les moyens de stockage, matériels et logiciels, évoluent rapidement : introduction de normes pour les textes (e.g. SGML), compression et indexation pour accès rapide sur CD-ROM, textes multilingues (UNICODE), etc.

On présentera de facon détaillée l'application de la correction d'erreurs. En effet, les automates locaux constituent un outil adapté à la localisation de certaines erreurs dans les textes, ainsi qu'à la mise en oeuvre des transductions liées aux formes phonétiques des textes: génération des variantes phonétiques, reconnaissance des formes canoniques malgré ces variantes, codage des formes sur un code de syllabes phonétiques, et autres applications, dont les potentialités sont sous-exploitées dans les systèmes de traitement de la parole. Dans le domaine du traitement de l'écrit, la modélisation de sur-ensembles d'une langue naturelle ouvre la voie non seulement à la détection d'erreurs mais aussi et surtout à la levée des ambigüîtés lexicales qui sont un des obstacles majeurs à l'analyse syntaxique des textes. Avec ces objectifs, la conception de modèles de sur-ensembles d'une langue est à la fois une perspective réaliste à court terme, et un domaine rigoureusement formalisé qui n'exclut pas le recours à l'intuition linguistique et grammaticale.

La recherche d'informations dans les textes constitue le noyau de l'informatique linguistique, mais ce noyau engendre d'autres activités importantes et de plus en plus élaborées, comme la correction orthographique qui devient indispensable, de même que la correction syntaxique et stylistique. La cohérence lexicale conduit à la nécessité terminologique d'unifier les vocabulaires, et ce à travers plusieurs langues. Qui plus est, la notion de texte se généralise et des documents multimédia comportant image et son doivent faire l'objet des mêmes traitements. Des outils informatiques nouveaux et à venir aident à mettre au point les textes. Par ailleurs, des aides mécaniques à la traduction des textes se répandent et se perfectionnent.

Les enseignements et les stages sont destinés à présenter et à mettre en oeuvre ces activités multidisciplinaires rassemblées par l'activité fondamentale de l'analyse automatique des textes.

Next: Représentation des connaissances et Up: Programmes des cours de Previous: Stages

Dominique Perrin
Thu May 2 14:25:15 METDST 1996