from categorisation import catTextVectorCollection
from summarization import summarizationText
from textSpaceVector import textVectorCollection

### exercice sur la classification

cc = catTextVectorCollection('data/cat_apprentissage.txt')

#print cc.getBarycentre('gas')
#print cc.getBestCategory(file = 'data/reuter-collection/16/16772.txt')

# tester avec les fichiers suivants qui ne sont pas dans la liste
#data/reuter-collection/19/19031.txt coffee
#data/reuter-collection/18/18929.txt gas
#data/reuter-collection/19/19010.txt sugar


eval = catTextVectorCollection('data/cat_evaluation.txt')
nvalid = 0.0
ndocs = 0.0
for c in eval.categories():  
  coll =  eval.getCategoryCollection(c)
  for v in coll.vectors():
    ndocs += 1
    cat = cc.getBestCategory(vector = v)
    if cat == c:
      nvalid += 1
print 'precision = %f'% (nvalid/ndocs)



### exercice sur le resume automatique
## le fichier data/doclist.txt est la liste des fichiers contenu dans l'archive Reuter (cf. td2)

#c = textVectorCollection(file = 'data/doclist.txt')
#st = summarizationText('data/reuter-collection/19/19010.txt')
#st.summarize(collection=c)
