TXM

Fiche dév Ens Sup - Recherche
  • Création ou MAJ importante : 20/12/10
  • Correction mineure : 26/08/13
  • Auteur de la fiche : Serge Heiden (Interactions, Corpus, Apprentissages, Représentations)
  • Responsable thématique : Maud Ingarao (Institut d'Histoire de la Pensée Classique - ENS Lyon)
Mots-clés

TXM : textométrie, analyse quantitative et qualitative de corpus textuels numériques

Ce logiciel a été développé (ou est en cours de développement) dans la communauté de l'Enseignement Supérieur et de la Recherche. Son état peut être variable (cf champs ci-dessous) donc sans garantie de bon fonctionnement.
  • Site web
  • Système : UNIX-like, Windows, MacOS X
  • Version actuelle : bureau 0.7.2 - Windows, Mac OS X, Linux / portail 0.4 - GWT J2EE / Tomcat, Glassfish - 2 Juillet 2013 / 24 Novembre 2011
  • Licence(s) : GPL - En cours de définition
  • Etat : diffusé en beta
  • Support : maintenu, développement en cours
  • Concepteur(s) : Vincent Chabanis, Jérôme Chauveau, Matthieu Decorde (développeur principal), Séverine Gedzelman, Andrew Hardie, Serge Heiden (responsable du développement), Sébastien Jacquot, Nils Kredens, Alexis Lavrentiev, Sylvain Loiseau, Jean-Philippe Magué, Lise Vaudor et Adrien Yepdieu.
  • Contact concepteur(s) :

    Voir le wiki des développeurs

  • Laboratoire(s), service(s)... : BCL, ICAR, LASELDI, SYLED, Université d'Oxford, Université du Québec à Montréal

 

Fonctionnalités générales du logiciel

La plateforme TXM aide à construire et à analyser tout type de corpus textuel numérique éventuellement étiqueté et structuré. Elle est diffusée sous forme de logiciel Windows ou Linux et sous forme d'application web hébergée sur un serveur :

  • Elle construit des sous-corpus à partir de différentes métadonnées (propriétés) des textes (eg. : date de publication, auteur, type de texte, thème)
  • Elle construit des partitions à partir de ces propriétés permettant d'appliquer des calculs de contraste entre les textes ou entre groupes de textes
  • Elle produit des concordances kwic à partir de recherches de motifs lexicaux complexes - construits à partir des propriétés des mots (eg. :
    "un mot de lemme 'aimer' suivi à au plus de 2 mots d'un mot commençant par 'pouv'). Depuis chaque ligne de concordance, vous pouvez accéder à la page correspondante dans une édition HTML
  • Elle construit une édition HTML de base pour chaque texte du corpus ou intègre une édition tierce
  • Elle calcule le vocabulaire d'ensemble d'un corpus ou la liste des valeurs attestées d'une propriété de mot donnée
  • Elle construit des tableaux de fréquences croisant les mots et les textes
  • Elle calcule la liste des mots apparaissant de façon préférentielle dans les mêmes contextes qu'un motif lexical complexe (cooccurrents statistiques)
  • Elle calcule les mots, ou les propriétés de mots, particulièrement présents dans une partie du corpus (spécificités statistiques)
  • Elle calcule des visualisations du corpus sous forme de cartographie de mots, de propriétés ou de textes  (analyse factorielle des correspondances)
  • Elle permet d'importer des ressources textuelles afin de construire un corpus provenant de diverses sources, ou directement, depuis n'importe quel texte copié dans le presse-papier. Elle intègre, par défaut, 9 modules d'importation de corpus différents (TXT, XML, XML/w, XML-TEI, XML-TXM, Alceste, Hyperbase, Transcriber+CSV, CNR+CSV)
  • Elle intègre l'application automatique d'outils de traitement automatique de la langue (TAL) sur les textes. Elle est livrée avec un plugin de l'étiqueteur morphosyntaxique et lemmatiseur TreeTagger pour différentes langues (TreeTagger est à installer séparément pour des raisons de licence). Les résultats de cet outil sont accessibles dans la plateforme sous forme de propriétés de mots (eg. : mot "aime", étiquette morphosyntaxique VER:pres" - verbe au présent de l'indicatif, lemme "aimer")
  • Elle exporte tous ses résultats au moins sous forme de texte brut ou au format CSV
  • Elle est extensible par le biais de macros (notamment pour adapter les formats d'import)

La plateforme est enfin un environnement ouvert d'expérimentation de modèles statistiques développés en R en relation avec le moteur de recherche d'expressions CQL.

Contexte d’utilisation du logiciel

La plateforme TXM est utile à toute discipline de sciences humaines et sociales faisant appel à l'analyse de corpus textuels sous forme numérique, en utilisant une méthode combinant outils quantitatifs et qualitatifs appelée textométrie (dans la lignée de la lexicométrie : Hyperbase, Lexico, Weblex...).

La méthode est couramment utilisée en histoire, littérature, géographie, linguistique, sociologie, droit, philosophie, sciences politiques, etc. Voir les actes de la conférence Journées internationales d'Analyse des Données Textuelles (http://jadt.org)

Les points forts de la méthode sont :

  • l'attention portée sur la façon avec laquelle les notions sont exprimées, les mots et les expressions utilisés ;
  • l'attention à la définition du corpus d'analyse (homogénéité...) ;
  • l'usage d'heuristiques et de statistiques pour dégrossir les volumes textuels importants ;
  • l'analyse de textes longs (romans, oeuvres complètes...) ;
  • l'analyse de textes de toute langue où des unités lexicales peuvent être identifiées automatiquement ;
  • l'analyse de textes "équipés" linguistiquement (lemmatisé, étiqueté en morphosyntaxe, etc.).

Les points forts de la plateforme sont :

  • la possibilité d'utiliser l'outil de façon progressive à travers la même interface graphique utilisateur d'un usage débutant (comme la recherche documentaire simple à travers des concordances ou la lecture d'éditions) à un usage avancé (comme celui de scripts R pour l'analyse constrative statistique entre textes reposant sur la fréquence des mots ou des catégories grammaticales par exemple) ;
  • une même interface graphique utilisateur pour la version bureau (Windows, Mac OS X ou Linux) et la version portail (à travers un navigateur web) ;
  • la possiblité de donner accès à ses corpus en ligne à travers un portail TXM offrant des services de mise en ligne (publication) et d'analyse pour tous les corpus importés dans un TXM bureau ;
  • la possibilité de travailler sur des sources textuelles de complexité progressive : de simple documents en texte brut (TXT) aux documents richement encodés en XML-TEI en passant par l'encodage XML simple sans schéma XML particulier ;
  • la possibilité de travailler sur des sources textuelles encodées selon les standards internationaux évoluant au même rythme que l'outil (Text Encoding Initiative - TEI) ;
  • un nombre et une diversité toujours croissants de formats pris en charge et systématiquement transformés automatiquement en XML selon les recommandations de la TEI avant leur intégration finale dans la plateforme ;
  • l'annotation linguistique des mots automatique lors de l'import des textes sources dans l'outil (lemmatisation et étiquetage grammatical) ;
  • une communauté d'utilisateurs réunie autour d'une liste de diffusion active et d'un wiki public ;
  • un développement permanent de la plateforme par un réseau de développeurs avec le soutien de financements publics ;
  • un développement respectant les standards de développement : OSGi, J2EE, Java ;
  • un kit de développement Java (SDK) unique pour toutes les versions de TXM immédiatement exploitable par tout informaticien formé à Java ;
  • un développement open-source utilisant des composants open-source reconnus et maintenus.
Publications liées au logiciel