Corpus

Pour quelques articles de mon blog en particulier, j'ai compil quelques corpus que je laisse ici en accs libre.

A venir : votes des dputs europens, coordonnes des restaurants McDonald's parisiens, titres de films trangers et leur traduction franaise.


Transcriptions annotes de critiques cinma audio

Plus de 1000 films sortis depuis 2002, avec pour chacun le titre, la date de sortie, la rfrence de la fiche Allocin, la critique de Monique Pantel sur Europe 1 (plus de 100 000 mots au total), l'apprciation entre 0 et 20 dduite de cette critique.

Un fichier zip contenant un fichier html pour chaque lment du corpus. Pour viter d'avoir parser a, le fichier .csv du tableau contenant ces infos est disponible sur demande. Possibilit de rcuprer aussi les fichiers audio correspondant aux transcriptions.


Votes des dputs l'Assemble Nationale

Les votes des dputs franais 43 scrutins publics d'octobre 2004 dcembre 2006 (infos source : site de l'Assemble Nationale) : POUR = 3, CONTRE = 1, ABSTENTION = 0, ABSENCE = rien.

Le fichier .csv du tableau rcapitulatif.


Sondages d'intentions de vote au premier tour des prsidentielles franaises 2007 (et 2002)

A partir de donnes sources runies par le journal Le Monde, et aprs quelques corrections. Une analyse de ces donnes ici.

Le fichier Excel du tableau rcapitulatif (fichier OpenOffice), les fichiers Excel et Open Office partir des donnes de France-Politique pour 2002.


Rseaux sociaux sur les blogs : "Z-lists" et "F-lists"

De mme que certaines chanes de courriers ou d'e-mails, a t lance en dcembre 2006 sur la blogosphre amricaine et en fvrier 2007 sur la blogosphre francophone une chane de blogs favoris appele "F-list" (ou "Z-list" pour l'amricaine). Un corpus de plus de 186 F-lists (qui propose des liens vers plus de 1700 blogs diffrents) et 123 Z-lists a t collect, puis normalis (des liens pointant vers des sites identiques ont t identifis).

Le fichier html contenant les f-lists normalises.