Aujourd'hui, la quasi totalité des textes sont composés par ordinateur, depuis les livres, magazines, journaux et documentations techniques jusqu'au courrier personnel, commercial et administratif. Mais la recherche d'informations textuelles est encore largement limitée aux fiches que bibliothécaires et documentalistes associent au coup par coup à chaque texte et qui comportent : auteur, titre ainsi que les matières, simplement signalées par des mots-clés. Or une nouvelle approche à la recherche d'informations est devenue possible dès lors qu'on dispose des textes sur support informatique. En effet, on peut rechercher à volonté des mots des expressions complexes, individuellement et directement dans le corps des textes. Cette approche est extrêmement puissante et elle se développe rapidement, en même temps que les systèmes d'archivage se multiplient. Les méthodes mettent en jeu des disciplines différentes :
On présentera de facon détaillée l'application de la correction d'erreurs. En effet, les automates locaux constituent un outil adapté à la localisation de certaines erreurs dans les textes, ainsi qu'à la mise en oeuvre des transductions liées aux formes phonétiques des textes: génération des variantes phonétiques, reconnaissance des formes canoniques malgré ces variantes, codage des formes sur un code de syllabes phonétiques, et autres applications, dont les potentialités sont sous-exploitées dans les systèmes de traitement de la parole. Dans le domaine du traitement de l'écrit, la modélisation de sur-ensembles d'une langue naturelle ouvre la voie non seulement à la détection d'erreurs mais aussi et surtout à la levée des ambigüîtés lexicales qui sont un des obstacles majeurs à l'analyse syntaxique des textes. Avec ces objectifs, la conception de modèles de sur-ensembles d'une langue est à la fois une perspective réaliste à court terme, et un domaine rigoureusement formalisé qui n'exclut pas le recours à l'intuition linguistique et grammaticale.
La recherche d'informations dans les textes constitue le noyau de l'informatique linguistique, mais ce noyau engendre d'autres activités importantes et de plus en plus élaborées, comme la correction orthographique qui devient indispensable, de même que la correction syntaxique et stylistique. La cohérence lexicale conduit à la nécessité terminologique d'unifier les vocabulaires, et ce à travers plusieurs langues. Qui plus est, la notion de texte se généralise et des documents multimédia comportant image et son doivent faire l'objet des mêmes traitements. Des outils informatiques nouveaux et à venir aident à mettre au point les textes. Par ailleurs, des aides mécaniques à la traduction des textes se répandent et se perfectionnent.
Les enseignements et les stages sont destinés à présenter et à mettre en oeuvre ces activités multidisciplinaires rassemblées par l'activité fondamentale de l'analyse automatique des textes.