Documentation Iramuteq
version 0.4 alpha 1
Manuel utilisateur
Pierre Ratinaud
Licence GNU FDL
Iramuteq est un logiciel d'analyse de textes et de tableaux de données. Il s'appuie sur le logiciel de statistique R (http://www.r-project.org), sur le langage python (http://www.python.org) et sur la base de données lexicales Lexique (http://www.lexique.org).
ATTENTION
Iramuteq est en cours de développement. Regardez les informations disponibles sur la page http://repere.no-ip.org/logiciel/iramuteq pour connaître la fiabilité des différentes analyses.
Les fichiers d'entrée doivent être au format texte brut (.txt) et respecter les règles de formatage des corpus ALCESTE.
Dans ce formatage, l'unité de base est appelée « unité de contexte initiale » (UCI). Une UCI peu représenter un entretien, un article, un livre ou tout autre type de documents. Un corpus peut contenir une ou plusieurs UCI (mais au minimum une).
Les UCI sont introduites par quatre étoiles (****) suivies d'une série de variables étoilées séparées par un espace.
Il est possible de placer des variables étoilées à l'intérieur des corpus en les introduisant en début de ligne par un tiret et une étoile (-*). La ligne ne doit contenir que cette variable.
Il est possible d'introduire dans le corps du texte des formes qui seront traitées comme des variables étoilées. Il faut alors que ces formes commencent et se terminent par un _. :
Exemple
texte texte _rire_ texte texte texte
Le texte contient, de préférence, les caractères de ponctuations.
Exemple d'un corpus sans thématique :
**** *var1_1 *var2_2
texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte
**** *var1_2 *var2_3
texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte
Exemple d'un corpus avec thématique :
**** *var1_1 *var2_2
-*thematique1
texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte
-*thematique2
texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte
**** *var1_2 *var2_3
-*thematique1
texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte
-*thematique2
texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte
**** *var1_1
texte texte texte texte texte
-*thematique1
texte texte texte texte texte texte
*age 18 ans n'est pas un bon codage
*age_18 est un bon codage
*entretien_d'Emilie n'est pas un bon codage
*ent_emilie est un bon codage
Exemple : *sex_h pour les hommes et *sex_f pour les femmes permet de repérer la variable sex et les modalités h et f.
Fichier → Ouvrir un corpus texte
Vous devez préciser l'encodage du fichier et la langue du corpus.
Les corpus texte sont passés en minuscules. Tous les caractères qui ne sont pas dans la liste des caractères retenus sont remplacés par des espaces. Toutes les successions d'espaces ou de sauts de ligne sont remplacés par un espace ou un saut de ligne. Les apostrophes (’) sont remplacées par des apostrophes (').
Caractères retenus : a-zA-Z0-9àÀâÂäÄáÁéÉèÈêÊëËìÌîÎïÏòÒôÔöÖùÙûÛüÜçÇ’ñ.:,;!?\n*'_-
Cette liste devrait devenir paramétrable
Le dictionnaire des expressions contient des expressions ou des mots contenant des tirets (-) des apostrophes (') ou des espaces. Il permet de traiter ces expressions comme un tout. Par exemple, le mot aujourd'hui sera traité comme la forme aujourd_hui. L'expression « vis-à-vis » sera transformée en « vis_à_vis ». Le dictionnaire des expressions est disponible dans le répertoire d'installation d'iramuteq, dans le sous-répertoire « dictionnaire ».
L'utilisation de ce dictionnaire est optionnel.
Les apostrophes (') et les tirets (-) sont remplacés par des espaces.
Les verbes sont réduits à l'infinitif, les noms et les adjectifs sont réduits au masculin singulier.
Exemple :
mangé, mangeons, mangera → manger
professionnelles, professionnelle, professionnels, professionnel → professionnel
La lemmatisation est optionnelle.
Analyse de texte → Statistiques textuelles
Cette analyse propose des statistiques simples sur les corpus texte : effectifs de toutes les formes, effectifs des formes actives et supplémentaires, liste des hapax.
Les résultats se présentent sous forme de listes. Un clique droit sur une forme permet d'accéder aux formes associées et à un concordancier.
Répertoire de sortie | NomDuCorpus_Stat_x |
Fichiers en sortie : | |
total.csv | Toute les formes et leurs effectifs |
formes_supplémentaires.csv | Les formes supplémentaires et leurs effectifs |
formes_actives.csv | Les formes actives et leurs effectifs |
hapax.csv | Les hapax |
Analyse de texte → Comme lexico
Reproduit une des analyses du logiciel Lexico (http://www.tal.univ-paris3.fr/lexico/).
Il s'agit de la description d'un tableau de contingence qui croise formes et groupes d'UCI. Les groupes d'UCI sont sélectionnées en fonction de variables illustratives. L'objectif est de comparer ces groupes d'UCI.
L'effectif minimum d'une forme sélectionnée peut être paramétré. Par défaut, cette valeur est à 10.
Les mêmes résultats sont produits sur les formes et sur les types.
•.Onglet Spécificités :
Présente l'exposant du seuil de significativité du chi2 qui mesure la force du lien entre la forme et la variable. Par exemple, si une forme est liée à une variable avec un chi2 dont le seuil de significativité est 0,001, la valeur 3 sera notée car 0,001 = 10-3.
•.Onglet Effectifs :
Les effectifs
•.Onglet Effectifs relatifs :
Les effectifs relatifs en 1000ème
Analyse de texte → AFC sur UCI
Produit une analyse factorielle des correspondances sur un tableau de contingence qui croise formes actives et UCI.
Cette analyse est immature. Il est préférable d'utiliser l'analyse « Comme lexico » sur les UCI.
Pas d'options pour l'instant
Trois graphiques d'AFC sont proposés : formes actives, formes supplémentaire et variables étoilées.
Analyse de texte → Classification → méthode ALCESTE
Cette analyse propose une classification hiérarchique descendante selon la méthode ALCESTE (Reinert, 1983, 1986, 1991). La classification peut être menée sur les UCI (classification simple sur UCI) ou sur des segments de textes (Unité de Contexte Élémentaire : UCE). Les classifications sur les UCE peuvent être conduites directement sur celles-ci (classification simple sur UCE) ou sur deux tableaux proposant des regroupements de segments de texte (Unité de Contexte : UC) qui différent par le nombre de variables actives (et donc d'UCE) regroupées par ligne (classification double sur UC).
Voir le détail de la classification ALCESTE en annexe.
•.Utiliser le dictionnaire des expressions :
voir dictionnaire des expressions
•.Lemmatisation :
voir lemmatisation
•.Classification :
◦.double sur UC : la classification est menée sur deux tableaux qui regroupent sur chaque ligne un certain nombre d'UCE en fonction du nombre de formes actives par ligne des paramètres « taille uc 1 » et « taille uc2 »
◦.simple sur UCE : la classification est menée sur les UCE
◦.simple sur UCI : la classification est menée sur les UCI
•.Nombre de classes terminales de la phase 1 :
Détermine le nombre de classes de la première partie de la classification.
•.Nombre d'occurrences par UCE :
Permet de choisir la taille des UCE en fonction du nombre d'occurrences qu'elles regroupent. Par défaut, ce calcul est automatique et la taille des UCE est fonction de la taille du corpus. Plus le corpus est important, plus les UCE seront longues. Dans tous les cas, la ponctuation est prise en compte dans le découpage ; la valeur du nombre d'occurrences est donc « un objectif à atteindre » et pas une valeur stricte.
•.Nombre minimum d'UCE par classe :
Permet de choisir le nombre minimum d'UCE par classe. Par défaut, seules les classes regroupant 1/(le nombre de classes terminales de la phase 1) des UCE pour une classification simple, et 1/(2*le nombre de classes terminales de la phase 1) des UCE pour une classification double, seront retenues.
•.Nombre maximum de formes analysées :
Par défaut, les 1500 formes actives les plus fréquentes et les 1500 formes supplémentaires les plus fréquentes seront retenues. Une forme doit avoir au minimum une fréquence de 4 pour être retenue. Si le corpus à moins de 1500 formes, toutes les formes avec une fréquence strictement supérieure à 3 seront retenues.
•.Configuration des clés d'analyse :
Voir clés d'analyse
Les résultats directement disponibles présentent un résumé de la classification (onglet CHD) les profils des classes (onglet Profils), les antiprofils des classes (onglet Antiprofils) et une analyse factorielle des correspondances menées sur le tableau de contingence croisant formes et classes (onglet AFC).
A partir d'un clique droit sur une ligne du profil, plusieurs outils complémentaires sont proposés :
•.Formes associées : renvoie les mots associées à la forme sélectionnée et leurs effectifs.
•.Chi2 par classe : crée un graphique qui présente le chi2 d'association de la forme à chacune des classes. Plusieurs formes peuvent être sélectionnées en même temps.
•.Chié modalités de la variable : crée un graphique qui représente le chi2 d'association des modalités de la variable sélectionnée à chacune des classes. Nécessite un formatage du type variable_modalité.
•.Graph du mot : crée un graph de similitude représentant les cooccurrences dans la classe du mot sélectionné. Voir « analyse de similitude » pour plus de détails.
•.Concordancier : propose le concordancier de la (ou des) forme(s) sélectionnée(s). Ce concordancier est disponible pour les UCE de la classe, les UCE classées ou toutes les UCE du corpus.
•.Outils du CNRTL : interroge la base de données du Centre Nationale de Ressources Textuelles et Lexicales (http://www.cnrtl.fr/) à partir de la forme sélectionnée (nécessite d'être connecté à Internet). Permet d'obtenir une définition (Lexicographie), les synonymes (Synonymie), les Antonymes (Antonymie), l'étymologie (Etymologie) et la morphologie (Morphologie) de la forme. Les résultats s'affichent dans le navigateur internet par défaut du système.
•.Graph de classe : indépendant de la ligne sélectionnée. Il s'agit d'une analyse de similitude menée sur un tableau absence/présence (0/1) qui croise les unités choisies en ligne (UCI ou UCE) et les formes actives de la classe en colonne. La matrice de similitude est construite sur les colonnes (les formes actives de la classe). Par défaut, l'indice de similitude utilisé est la cooccurrence. Les résultats se présentent sous la forme d'un graphe de similitude réduit à un arbre maximum.
Voir « analyse de similitude » pour plus de détails.
•.Segments répétés : indépendant de la ligne sélectionnée. Effectifs et tailles des segments répétés de la classe. Préférez les profils des segments répétés.
•.UCE caractéristiques : indépendant de la ligne sélectionnée. Liste les UCE caractéristiques de la classe. Deux scores sont proposés :
◦.absolu : les UCE sont classées en fonction de la somme de chi2 de liaison à la classe des formes actives qu'elles contiennent.
◦.Relatif : les UCE sont classées en fonction de la moyenne des chi2 de liaison à la classe des formes actives qu'elles contiennent.
Dans le cas d'une classification sur UCI, remplacez UCE par UCI dans la description précédente.
Répertoire de sortie | NomDuCorpus_alceste_x |
Fichiers en sortie : | |
TableUc1.csv | Le tableau UC1/formes ou UCI/formes ou UCE/formes |
TableUc2.csv | Le tableau UC2/formes |
listeUCE1.csv | Tableau uce;uc pour les UC1 |
listeUCE2.csv | Tableau uce;uc pour les UC2 |
profiles.csv | Profils des classes |
antiprofiles.csv | Antiprofils des classes |
info.txt | Résumé de la classification |
uce.csv | Les uce par classe |
arbre_1.png | Dendrogramme de la première CHD |
arbre_2.png | Dendrogramme de la seconde CHD |
dendro1.png | Dendrogramme final sur UC1 |
dendro2.png | Dendrogramme final sur UC2 |
classe_mod.csv | Tableau de contingence formes actives/classes |
RData.RData | Résultats dans R |
tablesup.csv | Tableau de contingence formes supplémentaires/classes |
tableet.csv | Tableau de contingence variables illustratives/classes |
SbyClasseOut.csv | Les uce par classe |
chisqtable.csv | Chi2 d'association de chaque formes aux classes |
ptable.csv | Seuil de significativité des chi2 d'associations de chaque forme aux classes. |
Analyse.ira | Fichier Analyse : permet de ré-ouvrir une analyse. |
AFC2DL.png | Graph AFC : Variables actives - coordonnées - facteurs 1 / 2 |
AFC2DSL.png | Graph AFC : variables supplémentaires - coordonnées - facteurs 1 / 2 |
AFC2DEL.png | Graph AFC : Variables illustratives - Coordonnées - facteur 1 / 2 |
AFC2DCL.png | Graph AFC : Classes - Coordonnées - facteur 1 / 2 |
AFC2DCoul.png | Graph AFC : Variables actives - Corrélation - facteur 1 / 2 |
AFC2DCoulSup.png | Graph AFC : Variables supplémentaires - Corrélation - facteur 1 / 2 |
AFC2DCoulEt.png | Graph AFC : Variables illustratives - Corrélations - facteur 1 / 2 |
AFC2DCoulCl.png | Graph AFC : Classes - Corrélations - facteurs 1 / 2 |
liste_graph_afc.txt | Liste de s graphiques de l'onglet AFC |
liste_graph_chd.txt | Liste de graphiques de l'onglet CHD |
afc_row.csv | Résultats de l'AFC ; Coordonnées, corrélation, MASS, contribution des formes : voir le manuel de la librairie ca de R pour plus de détail. |
afc_col.csv | Résultats de l'AFC ; Coordonnées, corrélation, MASS, contribution des classes : voir le manuel de la librairie ca de R pour plus de détail. |
afc_facteur.csv | Résultats de l'AFC ; Valeurs propres, Pourcentage d'inertie extraite et Pourcentage cumulé des facteurs. |
segments_classes.csv | Tableau de contingence segments répétés/classes |
prof_segments.csv | Profils des segments répétés |
antiprof_segments.csv | Antiprofils des segments répétés |
profil_type.csv | Profils des types |
antiprof_type.csv | Antiprofils des types |
type_cl.csv | Tableau de contingence types/classes |
analyse.db | Base de données contenant les résultats |
Produit une classification à partir d'une matrice de distance construite à partir d'un tableau absence/présence qui croise l'unité choisie (UCI ou UCE) et les formes actives. La matrice de distance est construite à partir des lignes de ce tableau (les unités).
•.Méthode de construction de la matrice des distances :
Permet de choisir l'indice de distance utilisé dans la matrice des distances. Voir la documentation de la fonction dist (librairie stats) de R pour plus de détails sur ces indices. Le fichier traité étant de type absence/présence, seul l'indice « binary » est pertinent. Il s'agit de la distance de Jaccard.
•.Analyse :
Deux algorithmes de classification sont proposés : « k-means » par l'intermédiaire de la fonction « pam » et « fuzzy clustering » par l'intermédiaire de la fonction « fanny ». Ces deux fonctions font parties de la librairie cluster de R. Voir la documentation de la librairie cluster pour plus de détails : http://cran.r-project.org/web/packages/cluster/cluster.pdf
•.Classification :
Permet de choisir les unités en ligne : UCE ou UCI
•.Nombre maximum de formes analysées :
Voir Méthode ALCESTE → Options
•.Nombre de classes :
Nombre de classes souhaitées. Par défaut, 4 classes seront construites.
Les résultats se présentent comme les résultats de la méthode ALCESTE. Voir méthode ALCESTE → Résultats.
Les tableaux de données doivent être du type individus/caractères. Les variables doivent être préférentiellement présentées sous la forme variable_modalité. Dans le cadre des classifications ALCESTE, le tableau d'entrée est transformé en tableau absence/présence (0/1). Il n 'est donc généralement pas acceptable que deux colonnes distinctes contiennent des modalités formatées de la même façon. Une étoile peut être introduite devant les modalités qui seront utilisées comme variables illustratives dans les classifications ALCESTE. Cette présentation correspond à un corpus « formaté ».
exemple :
id | var1 | var2 | … |
1 | *var1_mod1 | var2_mod2 | … |
2 | *var1_mod2 | var2_mod1 | … |
3 | *var1_mod3 | var2_mod3 | … |
4 | *var1_mod2 | var2_mod4 | … |
5 | *var1_mod3 | var2_mod6 | … |
… | … | … | … |
Les fichiers acceptés en entrée doivent être au format .xls (Microsoft Excel 97/2003), .csv ou .ods (openoffice, libreoffice, etc...).
De façon plus générale, il faut éviter les caractères en dehors des lettres (a-z), des chiffres (0-9) et du tiret bas (_).