org.apache.lucene.analysis

Ce paquetage contient les classes pour convertir du texte en élément indexable.

Un Analyser (classe abstraite) fabrique des tokenStream à partir d'un flux de caractère.

Un TokenStream (qui est une classe abstraite) est une suite de Token

Un Token est une portion d'un texte. Par exemple dans le texte "oui je suis un texte", on peut définir le Token , ayant pour texte "oui je suis un texte",de début 4,de fin 6 et de type "word". Ce token représentera le mot "je".

Il peut y avoir plusieurs types de TokenStream qui je le rappelle est une suite de token :

Les Tokenizer ont pour entré un flux "InputStream". Ils contiennent l'algorithme spécifique "d'extraction" de tokens à partir d'un flux de caractère. Chaque algorithme est implémenté dans les sous classes de Tokenizer : WhiteSpaceTokenizer (extrait les tokens séparé en espace) , CharToken, LowerCaseTokenizer(utilise letterTokenizer et LowerCaseFilter combiné), CharTokenizer, LetterTokenizer (extrait les chaînes constitué juste de lettres) ou encore StandardTokenizer.
Les TokenFilter contiennent également un algorithme de traitement, mais ont pour entré un autre tokenStream. Le TokenFilter utilise le principe de filtre, on pourra combiner son traitement à celui d'un autre tokenStream.
Exemple de filtres : LowerCaseFilter convertit chaque terme d'un tokenstream en minuscule. PorterStemFilter filtre selon l'algorithme de Porter Stemmer. GermanStemFilter extrait les mots selon la grammaire allemande par exemple tout les tokens se terminant pas en, ed et er sont tronqué (déclinaison d'un mot en Allemand). StopFilter permet à partir d'une liste de mot de déterminer supprime de la séquence de mot ceux de la liste.
Il existe donc des Analyser pour des types de Tokenizer qu'on pourrait construire.... exemple : StandardAnalyser combine un StandardTokenizer, un StandardFilter, un StopFilter et un LowerCaseFilter.

Finalement, ce paquetage propose une multitude de classes qu'on peut combiner. Ce qui permet de créer selon le type de documents qu'on a, des Analyser personnalisé afin de générer nos tokens à partir des flux de caractères.

Sun Seng Tan 2004-02-28