org.apache.lucene.analysis


Ce paquetage contient les classes pour convertir du texte en élément indexable.

Un Analyser (classe abstraite) fabrique des tokenStream à partir d'un flux de caractère.

Un TokenStream (qui est une classe abstraite) est une suite de Token

Un Token est une portion d'un texte. Par exemple dans le texte "oui je suis un texte", on peut définir le Token , ayant pour texte "oui je suis un texte",de début 4,de fin 6 et de type "word". Ce token représentera le mot "je".

Il peut y avoir plusieurs types de TokenStream qui je le rappelle est une suite de token :

Finalement, ce paquetage propose une multitude de classes qu'on peut combiner. Ce qui permet de créer selon le type de documents qu'on a, des Analyser personnalisé afin de générer nos tokens à partir des flux de caractères.

Sun Seng Tan 2004-02-28