Data Mining

 

Sommaire


       Segmentation
       Recherche d'associations
     Classification & Prédiction
5- Web Mining 
 
 

Web mining
 

Il consiste en l'application du data mining aux données issues des serveurs Internet sur la navigation des utilisateurs des sites Web des entreprises.

Son intérêt est le suivant

 - Optimiser la navigation dans un site en analysant le comportement des internautes.

 - Déceler les centres d'intérêts et donc les attentes des internautes.

 - Rendre les sites Web plus adaptatifs. Par exemple, une personne en Suisse cherchant des stations de skis sur le net serait plus intéressée par les Alpes que par les Rockies au Colorado.

Le Mining des profils utilisateurs typiques en se référant aux historiques des données sur les serveurs ou au fichiers log tend à la personnalisation des profils des internautes.

L'un des objectifs du Web mining est de répondre aux requêtes d'un utilisateur en fonction de son profil.

Le Web mining est propulsé au coeur de l'actualité, non seulement à cause du temps perdu dans la recherche d'information mais aussi à cause du trafic  énorme  sur la toile.

Toutefois, il est difficile, non seulement, de savoir comment les critères de similarités entre profils pourrait être établies afin de procéder à la segmentation, mais aussi d'établir les règles d'associations entre les catégories d'internautes. Ceci, surtout en l'absence de connaissances antérieures.

La personnalisation peut avoir lieu via "information brokers" (les moteurs de recherches) ou dans un site  "end-to-end".

Une des méthodes simples utilisées est le filtrage collaborative   où chaque utilisateur est modélisé par les articles en qui il montre un intérêt bien que les caractéristiques des ces derniers ne sont pas pris en compte

Le processus d'identifier des structures  dans un ensemble de données non réparties dans des catégories est un problème majeur en Web mining. Si on considère la tâche consistant à regrouper ensemble des pages web d'un contenu  similaire, le Web mining requière la modélisation d'un grand nombre de données avec la présence d'une grande quantité de bruit. Par exemple, les modèles d'e comportements des utilisateurs toujours ne sont pas entièrement fixés, un utilisateur peut visiter le site de CNN pour informations politiques et  y revenir pour le sport.

Un autre problème est le manque de données. Pour avoir une personnalisation efficace, des informations démographiques, doivent être entrées ainsi  que les différents profils des utilisateurs. Sinon les modèles prédictives ne peuvent pas générer des résultats acceptables.

Les objets du Web (URL, pages....) ne sont pas numériques, donc faire des mesures de distance entre eux est une question qui se pose aussi. Web mining doit être capable de manipuler des données relationnelles.

C'est pourquoi on applique le segmentation relationnelle. Ceci, après avoir défini les mesures de dissimilitudes pour pouvoir quantifier les degrés de ressemblance.

       L' algorithme de SAHN (Sequential Agglomerative Hierarchical Non-overlaping)   est utilisé pour détecter ces ressemblances entre les objets Web en procédant sur une matrice dite de dissimilitude en procédant avec une approche "bottom-up" et en fusionnant des segments de plus en plus proches l'un de l'autre à chaque étape.

 

 

 

 


Copyright © [Nizar Jegham] 2003/2004 - DEA informatique fondamentale - filière logiciels et réseaux