Analyse sur corpus texte
- l'indexation n'a lieu qu'une seule fois (avant elle était reconduite à chaque analyse)
- de nombreuses options sont disponibles pour cette indexation (option de nettoyage, conservation de la ponctuation, nom du répertoire en sortie, passage en minuscule, traitement des apostrophes et des tirets...).
- le format en interne des corpus a été complètement revu : la consommation de mémoire est bien moins importante et iramuteq peut maintenant traiter des corpus beaucoup plus importants.
- changement de vocabulaire pour la méthode « Reinert » ; pour des raisons de propriétés intellectuelles, tout le vocabulaire lié à la méthode Reinert a été remplacé. Voici un petit dictionnaire du nouveau vocabulaire :
Méthode ALCESTE → Méthode G.N.E.P.A. (pour Gnepa N'Est Pas Alceste)
UCI → texte
UCE → segment de texte
UC → regroupement de segment de texte (rst)
- amélioration de la méthode GNEPA : l'analyse va beaucoup plus vite et peut être menée sur des corpus très grand
- ajout du mode patate dans la méthode GNEPA : le mode patate supprime la deuxième phase de tous les tours d'analyse (reclassement de toutes les lignes de la matrice) ; on perd en précision, mais ça va beaucoup plus vite.
- ajout d'options sur les nuages de mot, notamment la possibilité de sélectionner les formes.
- possibilité de sélectionner les formes directement dans le dialogue pour les analyses de similitude
- possibilité d'exporter le dictionnaire d'un corpus à partir d'une analyse statistique
- possibilité d'exporter le dictionnaire des lemmes à partir d'une analyse statistique