...
[iramuteq] / usecorpusNG.py
1 from corpus import *
2 from functions import DoConf
3
4 corpus_encodage = 'cp1252'
5 corpus_in = '/home/pierre/fac/identite/identite_sans_doublons_ok_corpus_6/Corpus/corpus.cira'
6
7 corpus_parametres = DoConf('/home/pierre/.iramuteq/corpus.cfg').getoptions('corpus')
8 corpus_parametres['filename'] = self.filename
9 corpus_parametres['encoding'] = corpus_encodage
10 corpus_parametres['syscoding'] = 'utf8'
11 #corpus = BuildFromAlceste(self.filename, corpus_parametres, self.lexique, self.expressions).corpus
12                 #with codecs.open(self.filename, 'r', self.corpus_encodage) as f:
13 corpus = Corpus(self, parametres = {'filename': corpus_in, 'syscoding': 'utf8'}, read = corpus_in)
14
15 corpus.conn_all()
16
17 etoiles = ['*date_0211','*date_0311', '*date_0411', '*date_0511', '*date_0611', '*date_0711']
18 corpus.read_corpus()
19 corpus.make_lems()
20 actives = corpus.make_actives(450)
21 corpus.make_and_write_sparse_matrix_from_uces(actives, 'mm.mm')
22 ucesize = corpus.getucesize()
23 float(sum(ucesize)/len(ucesize)
24 actives = corpus.make_actives(10)
25 #ucesize = corpus.make_uceactsize(actives)
26 #uc1, uc2 = corpus.make_uc(actives, 25, 27)
27 corpus.make_and_write_sparse_matrix_from_uc(actives, 25, 27, 'uc1.mm', 'uc2.mm')
28 tab = corpus.make_lexitable(100, etoiles)