Corpus

Pour quelques articles de mon blog en particulier, j'ai compilé quelques corpus que je laisse ici en accès libre.

A venir : votes des députés européens, coordonnées des restaurants McDonald's parisiens, titres de films étrangers et leur traduction française.


Transcriptions annotées de critiques cinéma audio

Plus de 1000 films sortis depuis 2002, avec pour chacun le titre, la date de sortie, la référence de la fiche Allociné, la critique de Monique Pantel sur Europe 1 (plus de 100 000 mots au total), l'appréciation entre 0 et 20 déduite de cette critique.

Un fichier zip contenant un fichier html pour chaque élément du corpus. Pour éviter d'avoir à parser ça, le fichier .csv du tableau contenant ces infos est disponible sur demande. Possibilité de récupérer aussi les fichiers audio correspondant aux transcriptions.


Votes des députés à l'Assemblée Nationale

Les votes des députés français à 43 scrutins publics d'octobre 2004 à décembre 2006 (infos source : site de l'Assemblée Nationale) : POUR = 3, CONTRE = 1, ABSTENTION = 0, ABSENCE = rien.

Le fichier .csv du tableau récapitulatif.


Sondages d'intentions de vote au premier tour des présidentielles françaises 2007 (et 2002)

A partir de données sources réunies par le journal Le Monde, et après quelques corrections. Une analyse de ces données ici.

Le fichier Excel du tableau récapitulatif (fichier OpenOffice), les fichiers Excel et Open Office à partir des données de France-Politique pour 2002.


Réseaux sociaux sur les blogs : "Z-lists" et "F-lists"

De même que certaines chaînes de courriers ou d'e-mails, a été lancée en décembre 2006 sur la blogosphère américaine et en février 2007 sur la blogosphère francophone une chaîne de blogs favoris appelée "F-list" (ou "Z-list" pour l'américaine). Un corpus de plus de 186 F-lists (qui propose des liens vers plus de 1700 blogs différents) et 123 Z-lists a été collecté, puis normalisé (des liens pointant vers des sites identiques ont été identifiés).

Le fichier html contenant les f-lists normalisées.