multisplit
[iramuteq] / autres / cable.py
1 # -*- coding: utf-8 -*-
2 #Author: Pierre Ratinaud
3 #Copyright (c) 2008-2020 Pierre Ratinaud
4 #Lisense: GNU/GPL
5 # usage ?
6 # encodage est utilisé - mais utf-8 est par défaut dans PY3
7
8 #------------------------------------
9 # import des modules python
10 #------------------------------------
11 import codecs
12
13
14 filein = '/home/pierre/fac/cablegate/allcables-all.txt'
15 enc = 'utf-8'
16
17 infile = codecs.open(filein, 'r', enc)
18 content = []
19
20 class BigCorpus :
21     def __init__(self, parent) :
22         self.parent = parent
23         self.parametre = {'syscoding': sys.getdefaultencoding()}
24         self.content = None
25         self.ucis = None
26         self.formes = {}
27         self.lems = {}
28         self.ucenb = None
29         self.etoiles = None
30         self.etintxt = {}
31         self.ucis_paras_uces = None
32         self.lc = None
33         self.lc0 = None
34         self.actives = None
35         self.supp = None
36         #self.supplementaires = []
37         self.lenuc1 = None
38         self.lenuc2 = None
39         self.lexique = None
40     
41     def open_corpus(self) :
42         return codecs.open(self.parametre['filename'], "r", self.parametre['encodage'])
43     
44     def buildcorpus(self) :
45         i = 0
46         ucifile = os.path.join(os.path.basedir(self.parametre['filename']), 'ucis.txt')
47         uci = open(ucifile, 'w')
48         ucinb = 0
49         for line in self.open_corpus() :
50             if line.startswith(u'****') and i==0 :
51                 uci.write(line)
52                 i += 1
53             elif line.startswith(u'****') and i=!0 :
54                 uci.write(line)
55                 parse_uci()
56
57                 write_uci()
58                 uci[ucinb] = i
59                 ucinb += 1
60                 i += 1
61             else :
62                 addlinetouci(uci, prepare(line))
63                 line = line.lower().replace(u'\'','\' ').replace(u'’','\' ').replace('...',u' £ ').replace('?',' ? ').replace('.',' . ').replace('!', ' ! ').replace(',',' , ').replace(';', ' ; ').replace(':', ' : ').strip()
64                 line = line.replace('\n', ' ').replace('\r', ' ')
65                 line = line.split()
66                 content[-1].append(line)
67             i += 1
68 print len(content)