1 == Format des données en entrée ==
3 Les fichiers d'entrée doivent être au format texte brut (.txt) et respecter les règles de formatage des corpus ALCESTE.
5 Dans ce formatage, l'unité de base est appelée « unité de contexte initiale » (uci). Une uci peu représenter un entretien, un article, un livre ou tout autre type de documents. Un corpus peut contenir une ou plusieurs uci (mais au minimum une).
8 Les uci sont introduites par quatre étoiles (****) suivies d'une série de variables étoilées séparées par un espace. Il est possible de placer des variables étoilées à l'intérieur des corpus en les introduisant en début de ligne par un tiret et une étoile (-*). La ligne ne doit contenir que cette variable.
10 Exemple d'un corpus sans thématique:
11 <pre style="CSS text">
12 <nowiki>**** *var_1 *var_2</nowiki>
13 texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte
14 texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte
15 texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte
16 texte texte texte texte texte texte texte texte texte texte texte
17 texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte
18 texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte
19 texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte
20 texte texte texte texte texte texte texte texte texte texte texte
21 texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte
22 texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte
23 texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte
24 texte texte texte texte texte texte texte texte texte texte texte
25 texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte
26 texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte
27 texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte
28 texte texte texte texte texte texte texte texte texte texte texte
30 <nowiki>**** *var_2 *var_3</nowiki>
31 texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte
32 texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte
33 texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte
34 texte texte texte texte texte texte texte texte texte texte texte
35 texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte
36 texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte
37 texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte
38 texte texte texte texte texte texte texte texte texte texte texte
39 texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte
40 texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte
41 texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte
42 texte texte texte texte texte texte texte texte texte texte texte
43 texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte
44 texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte
45 texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte
46 texte texte texte texte texte texte texte texte texte texte texte</pre>
49 Exemple d'un corpus avec thématique :
51 <pre style="CSS text">
52 <nowiki>**** *var_1 *var_2</nowiki>
56 texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte
57 texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte
58 texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte
59 texte texte texte texte texte texte texte texte texte texte texte
63 texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte
64 texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte
65 texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte
66 texte texte texte texte texte texte texte texte texte texte texte texte texte texte
68 <nowiki>**** *var_2 *var_3</nowiki>
72 texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte
73 texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte
74 texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte
75 texte texte texte texte texte texte texte texte texte texte texte
79 texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte
80 texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte
81 texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte
82 texte texte texte texte texte texte texte texte texte texte texte</pre>
84 {{note|Les variables étoilées et les thématiques introduites dans le corpus ne doivent pas contenir d'espaces ou de caractères spéciaux. Elles ne doivent contenir que des caractères parmi a-z, A-Z, 1-9 et des tirets bas (_).}}
87 <pre><nowiki>*age 18 ans n'est pas un bon codage</nowiki>
89 <nowiki>*age_18 est un bon codage</nowiki>
91 <nowiki>*entretien_d'Emilie n'est pas un bon codage</nowiki>
93 <nowiki>*ent_emilie est un bon codage</nowiki></pre>