Corpus
Pour quelques articles de
mon blog
en particulier, j'ai compilé quelques corpus
que je laisse ici en accès libre.
A venir : votes des députés européens, coordonnées des restaurants McDonald's parisiens,
titres de films étrangers et leur traduction française.
Transcriptions annotées de critiques cinéma audio
Plus de 1000 films sortis depuis 2002, avec pour chacun le titre,
la date de sortie, la référence de la fiche Allociné, la critique
de
Monique Pantel
sur
Europe 1 (plus de 100 000 mots au total),
l'appréciation entre 0 et 20 déduite de cette critique.
Un
fichier
zip contenant un fichier html pour chaque élément du corpus.
Pour éviter d'avoir à parser ça, le fichier .csv du tableau contenant ces infos
est disponible
sur demande. Possibilité
de récupérer aussi les fichiers audio correspondant aux transcriptions.
Votes des députés à l'Assemblée Nationale
Les votes des députés français à 43 scrutins publics d'octobre 2004 à décembre 2006
(infos source :
site de l'Assemblée Nationale) :
POUR = 3, CONTRE = 1, ABSTENTION = 0, ABSENCE = rien.
Le
fichier .csv du tableau récapitulatif.
Sondages d'intentions de vote au premier tour des présidentielles françaises 2007 (et 2002)
A partir de
données
sources réunies par le journal Le Monde, et après quelques corrections. Une analyse de ces données
ici.
Le
fichier Excel du tableau récapitulatif
(
fichier OpenOffice),
les fichiers
Excel et
Open Office à partir des
données de France-Politique pour 2002.
Réseaux sociaux sur les blogs : "Z-lists" et "F-lists"
De même que certaines chaînes de courriers ou d'e-mails, a été lancée
en décembre 2006 sur la blogosphère américaine
et en février 2007 sur la blogosphère francophone une chaîne de blogs favoris appelée
"F-list" (ou "Z-list"
pour l'américaine). Un corpus de plus de 186 F-lists (qui propose
des liens vers plus de 1700 blogs différents) et 123 Z-lists a été collecté, puis normalisé (des
liens pointant vers des sites identiques ont été identifiés).
Le
fichier html contenant les f-lists normalisées.