R.TeMiS
R.TeMiS (R Text Mining Solution) est un environnement graphique de travail sous R permettant de créer, manipuler et analyser des corpus de textes, qu'ils soient constitués d'articles de presse, de réponses à une question ouverte, d'entretiens ou encore de textes issus de la Toile. Il prend actuellement en charge les méthodes d'Analyse de données textuelles, tout en facilitant l'importation de corpus depuis des sources informatisées (Factiva, Twitter).
R.TeMiS a été conçu pour limiter les effets de « boîte noire » liés à l'utilisation de certains logiciels propriétaires dédiés à l'analyse de textes peu flexibles et dont les techniques utilisées ne sont pas toujours documentées. Il vise ainsi à favoriser la réflexivité dans l’usage sociologique des données textuelles.
Fonctions actuellement prises en charge :
- Importation du corpus :
- Fichiers texte brut (.txt) stockés dans un dossier.
- Fichier tableur de divers types (voir ci-dessous).
- Fichier XML et HTML Factiva.
- Recherche Twitter.
- Construction du corpus (i.e ensemble de documents) :
- Découpage des textes longs en documents (i.e ensemble de termes).
- Suppression optionnelle des chiffres, des mots vides et de la ponctuation.
- Extraction optionnelle des radicaux des mots (racinisation)
- Sélection de documents à partir de termes ou de variables.
- Choix ou exclusion de certains termes.
- Recodage d'une variable temporelle.
- Statistiques descriptives sur les variables associées aux documents :
- Tri à plat et tri croisé.
- Évolution temporelle du nombre de documents.
- Statistiques lexicales :
- Nombre de mots, diversité du vocabulaire, nombre de hapax, longueur des mots.
- Table de dissimilarité du vocabulaire.
- Fréquence de termes.
- Termes les plus caractéristiques de modalités d'une variable.
- Termes co-occurrents.
- Évolution temporelle des occurrences d'un terme.
- Analyse des correspondances (sur tableau lexical entier ou agrégé).
- Classification ascendante hiérarchique (sur tableau lexical entier ou à partir des axes de l'analyse des correspondances).
- Toutes les fonctions produisent des graphiques (exportables dans une variété de formats) et les résultats sont
facilement exportables dans un rapport au format HTML.
Les corpus peuvent être importés sous forme de textes bruts (.txt) ou de fichiers de type tableur dans de nombreux formats : CSV (valeurs séparées par des virgules), TSV (valeurs séparées par des tabulations), Open Document (LibreOffice et OpenOffice), Microsoft Excel, dBase, SPSS, SAS, Minitab et STATA.
Les graphiques peuvent être exportés dans les formats (image ou vectoriels) les plus courants, dont le PNG, le SVG, le PostScript et le WMF. Tous les formats ne sont pas disponibles dans tous les OS.
Bien que récent, ce logiciel a déjà été utilisé par des chercheurs de l'INED dans le cadre de formations universitaires. Il sera bientôt utilisé pour des études d'entretiens et pour d'autres cours. Son intérêt est de proposer un équivalent à des fonctions offertes dans des logiciels propriétaires fort coûteux, ne fonctionnant que sous Windows, et n'étant pas installables sur les postes d'étudiants ou de chercheurs étrangers.
Ne couvre pas exactement la méthode utilisée par le logiciel de statistique textuelle (Alceste) : voir dans ce cas le logiciel libre Iramuteq.
Un terme identifié comme mot vide ne correspond pas toujours à un mot-outil.
Le logiciel permet de visualiser la racinisation effectuée, mais il serait souhaitable de pouvoir la modifier si nécessaire. Le logiciel ne permet actuellement pas de créer un dictionnaire/thésaurus personnel, et ne prend pas en charge la lexémisation.