Il consiste en
l'application du data mining aux données issues des serveurs
Internet sur la navigation des utilisateurs des sites Web des
entreprises.
Son intérêt est le
suivant
- Optimiser la
navigation dans un site en analysant le comportement des
internautes.
- Déceler les
centres d'intérêts et donc les attentes des internautes.
- Rendre les
sites Web plus adaptatifs. Par exemple, une personne en Suisse
cherchant des stations de skis sur le net serait plus intéressée
par les Alpes que par les Rockies au Colorado.
Le Mining des profils
utilisateurs typiques en se référant aux historiques des données
sur les serveurs ou au fichiers log tend à la personnalisation des
profils des internautes.
L'un
des objectifs du Web mining est de répondre aux requêtes d'un
utilisateur en fonction de son profil.
Le
Web mining est propulsé au coeur de l'actualité, non seulement à
cause du temps perdu dans la recherche d'information mais aussi à
cause du trafic énorme sur la toile.
Toutefois, il est
difficile, non seulement, de savoir comment les critères de
similarités entre profils pourrait être établies afin de procéder
à la segmentation, mais aussi d'établir les règles d'associations
entre les catégories d'internautes. Ceci, surtout en l'absence de
connaissances antérieures.
La
personnalisation peut avoir lieu via "information brokers" (les
moteurs de recherches) ou dans un site "end-to-end".
Une
des méthodes simples utilisées est le filtrage collaborative
où chaque utilisateur est modélisé par les articles en qui il
montre un intérêt bien que les caractéristiques des ces derniers
ne sont pas pris en compte
Le
processus d'identifier des structures dans un ensemble de
données non réparties dans des catégories est un problème majeur
en Web mining. Si on considère la tâche consistant à regrouper
ensemble des pages web d'un contenu similaire, le Web mining
requière la modélisation d'un grand nombre de données avec la
présence d'une grande quantité de bruit. Par exemple, les modèles
d'e comportements des utilisateurs toujours ne sont pas
entièrement fixés, un utilisateur peut visiter le site de CNN pour
informations politiques et y revenir pour le sport.
Un
autre problème est le manque de données. Pour avoir une
personnalisation efficace, des informations démographiques,
doivent être entrées ainsi que les différents profils des
utilisateurs. Sinon les modèles prédictives ne peuvent pas générer
des résultats acceptables.
Les
objets du Web (URL, pages....) ne sont pas numériques, donc faire
des mesures de distance entre eux est une question qui se pose
aussi. Web mining doit être capable de manipuler des données
relationnelles.
C'est
pourquoi on applique le segmentation relationnelle. Ceci, après
avoir défini les mesures de dissimilitudes pour pouvoir quantifier
les degrés de ressemblance.
L' algorithme de SAHN (Sequential Agglomerative Hierarchical
Non-overlaping) est utilisé pour détecter ces
ressemblances entre les objets Web en procédant sur une matrice
dite de dissimilitude en procédant avec une approche "bottom-up"
et en fusionnant des segments de plus en plus proches l'un de
l'autre à chaque étape.
|