BASE

Fiche logiciel validé
  • Création ou MAJ importante : 02/12/11
  • Correction mineure : 07/09/12
  • Rédacteur de la fiche : Stéphanie Rialle - Institut de Génomique Fonctionnelle/Plateforme MGX (CNRS, INSERM, Université de Montpellier 1 & 2)
  • Relecteur(s) : Philippe Bardou (INRA - LGC - Sigenae)
  • Contributions importantes : Christalle Dantec a rédigé la première version de cette fiche, elle a été remplacée par Stéphanie Rialles en Janvier 2012
  • Responsable thématique : Emmanuel Courcelle (LIPM)
Mots-clés
Pour aller plus loin

BASE : stockage et analyse de données de puces à ADN

Description
Fonctionnalités générales

BASE pour BioArray Software Environment est un LIMS (Laboratory Information Managment System) spécialisé dans le stockage des données de puces à ADN. Cette plateforme (interface web + base de données) permet le stockage et la gestion organisée :

  • Des informations biologiques (échantillons utilisés, protocole d'extraction, ...)
  • Du matériel (robot spotter, scanner, logiciel de quantification, ...)
  • De la technique utilisée (design de la puce, marqueur, design de l'expérience, protocole de spotting, de marquage, d'hybridation, ...)
  • Des données générées (fichiers de quantification, images, ...)

Elle permet également l’analyse (analyse statistique, mais aussi visuelle) des puces, grâce à des graphes que génère le logiciel et à des plugins (normalisation, visualisation, tests statistiques, clustering, ...).

BASE répond aux recommandations MIAME (Minimum Information About a Microarray Experiment), facilitant la publication vers les bases de données publiques (GEO - ArrayExpress - CIBEX).

Autres fonctionnalités

Le logiciel comporte un système de mise à jour pour bénéficier de la dernière version sans avoir à tout réinstaller à chaque nouvelle version... à condition de ne pas avoir fait de modifications dans le code ou le schéma de base de données.

De nombreux filtres sont accessibles dans le logiciel sur différents critères :

  • annotations des gènes (soit par identifiant, nom, synonyme, symbole, ...)
  • valeurs numériques (valeurs d'intensités, ratio, position sur la puce, ...)

Le logiciel permet de suivre 'la vie' d'un gène d'intérêt depuis sa position dans sa plaque 384 ou 96 puits jusqu'à ses valeurs de quantification et de normalisation. Il permet également de visualiser aisément le comportement d'un gène à travers différentes hybridations d'une même expérience. Grâce un système de couleur du ratio (du vert au rouge en passant par le jaune), on sait rapidement si le gène est up-régulé, down-régulé ou non différentiellement exprimé.

La dernière version intègre les données de séquençage haut débit liées à la transcription.
Ce logiciel permet également d'importer en masse des données provenant des expériences d'autres utilisateurs.

Interopérabilité
  • Importation des données
    BASE permet de rentrer des fichiers textes contenant les valeurs d'intensités de différents logiciels de quantifications, des expériences de macroarrays, microarrays, de puces à haute densité. Certains logiciels de quantification (genepix, imagene, ...) sont connus dans le logiciel, pour les autres on peut insérer les données en définissant le format de fichier approprié.

  • Exportation des données
    Des formats de fichiers sont prédéfinis pour l'exportation des données afin de les importer dans d'autres logiciels (MEV, Eisen, ...), mais l'utilisateur peut également choisir lui-même les données qu'il veut exporter.

Contexte d'utilisation dans mon laboratoire/service
  • Je travaille sur une plateforme transcriptome qui fournit un service complet pour les puces à ADN (spotting, marquage, hybridation, scan, quantification et analyses statistiques). Pour mettre à disposition les données générées (protocoles, fichiers de quantifications, analyses) à plusieurs utilisateurs en même temps, nous avons choisi ce logiciel qui nous satisfait.
    Il facilite grandement le partage des informations et la consultation.
  • Bien que peu intuitif au départ car complet, les utilisateurs s'approprient la partie du logiciel pour consulter les résultats de leurs analyses assez facilement. L'insertion des données dans le logiciel est faite quant à elle par les spécialistes de la plateforme.
  • C'est pour moi un très bon logiciel qui correspond aux besoins d'une plateforme. Il est bien avancé, avec une communauté d'utilisateurs et de développeurs importante.
  • Puisque le code est libre, on peut même adapter le logiciel à ses besoins propres si nécessaire.
Limitations, difficultés, fonctionnalités importantes non couvertes
  • Ce logiciel est avant tout développé pour des biologistes, mais l'installation n'est possible que s'il y a un informaticien pour s'en occuper.
  • Le logiciel est un peu dur à prendre en main au premier abord.
  • L'insertion des données peut demander également de définir des formats de fichiers qui peuvent ne pas être intuitifs au départ.
Environnement du logiciel
Distributions dans lesquelles ce logiciel est intégré

Aucune, il faut soi-même l'installer, étant un logiciel très spécifique.

Plates-formes

Il s'installe sur linux.
Ce que j'ai testé :

  • Pour la première version sur fedora :
    BASE 1.2.17 : PHP 5.1.6 - Apache/2.2.3 - PostgreSQL 8.0.8
  • Pour la seconde version sur fedora :
    BASE 2.3 -> 2.5 : Tomcat 5.5.17 - Java SDK 1.5 (java 1.5.0_09) - PostgreSQL 8.0.8
Logiciels connexes
  • TMEV : permet d'analyser les données de puces à ADN. C'est un complément à BASE. Permet de faire du clustering hiérarchique, des k-means, SOM, SAM, ANOVA, t-tests, ... licence : Artistic License.
  • TreeView : permet de faire du clustering. C'est un complément à BASE.
Autres logiciels aux fonctionnalités équivalentes

Plusieurs existent, ici une liste non exhaustive de logiciels avec des fonctionalités qui peuvent varier un peu, mais qui concernent les microarrays :

Environnement de développement
Type de structure associée au développement

C'est un logiciel qui est développé depuis 2002 avec le soutien initial de :

  • la fondation Knut and Alice Wallenberg en Suède,
  • le consortium SWEGENE,
  • the Swedish Cancer Society,
  • l'Université de Lund.

Désormais il y a 3 sponsors : l'université de Lund, L'information Society Technologies et ACGT.

Eléments de pérennité
  • Le développement de la version 3 est en cours et intègre désormais les données de séquençages haut débit. Le logiciel pourrait avoir une seconde vie car la technologie des puces à ADN semble de moins en moins utilisées avec l'arrivée des séquenceurs nouvelle génération haut débit.
  • La communauté de développeurs est importante et active (9 développeurs actuellement) ainsi que la communauté d'utilisateurs qui contribuent par l'ajout de plugins ou tout simplement pour répondre sur la mailing list,
  • Les développements sont actifs,
  • La mailing list est active, puisqu'en moyenne l'an dernier, il y a eu 26 messages par mois.
  • Ce logiciel est très utilisé.
Références d'utilisateurs institutionnels

Endroits où est utilisé ce logiciel en France :

  • Plateforme MGX de Montpellier
  • Plateforme bioinformatique de l'INRA de Jouy-en-Josas
  • Plateforme de l'Inserm de Nantes
  • Génopole de Lille
  • INRA de Toulouse
Environnement utilisateur
Liste de diffusion ou de discussion, support et forums
Documentation utilisateur

Documentation complète (pdf ou html) sur le site officiel

http://base.thep.lu.se/#Documentation

Contributions

Toutes les informations se trouvent sur le site officiel http://base.thep.lu.se/
Chacun peut participer au développement, créer des plugins.