biologie

Logiciels (logiciels libres en majorité) ou ressources (liées aux logiciels) utiles aux chercheurs et enseignants en biologie
Fiche logiciel validé
  • Création ou MAJ importante : 02/12/11
  • Correction mineure : 07/09/12
  • Rédacteur de la fiche : Stéphanie Rialle - Institut de Génomique Fonctionnelle/Plateforme MGX (CNRS, INSERM, Université de Montpellier 1 & 2)
  • Relecteur(s) : Philippe Bardou (INRA - LGC - Sigenae)
  • Contributions importantes : Christalle Dantec a rédigé la première version de cette fiche, elle a été remplacée par Stéphanie Rialles en Janvier 2012
  • Responsable thématique : Emmanuel Courcelle (LIPM)
Mots-clés
Pour aller plus loin

BASE : stockage et analyse de données de puces à ADN

Description
Fonctionnalités générales

BASE pour BioArray Software Environment est un LIMS (Laboratory Information Managment System) spécialisé dans le stockage des données de puces à ADN. Cette plateforme (interface web + base de données) permet le stockage et la gestion organisée :

  • Des informations biologiques (échantillons utilisés, protocole d'extraction, ...)
  • Du matériel (robot spotter, scanner, logiciel de quantification, ...)
  • De la technique utilisée (design de la puce, marqueur, design de l'expérience, protocole de spotting, de marquage, d'hybridation, ...)
  • Des données générées (fichiers de quantification, images, ...)

Elle permet également l’analyse (analyse statistique, mais aussi visuelle) des puces, grâce à des graphes que génère le logiciel et à des plugins (normalisation, visualisation, tests statistiques, clustering, ...).

BASE répond aux recommandations MIAME (Minimum Information About a Microarray Experiment), facilitant la publication vers les bases de données publiques (GEO - ArrayExpress - CIBEX).

Autres fonctionnalités

Le logiciel comporte un système de mise à jour pour bénéficier de la dernière version sans avoir à tout réinstaller à chaque nouvelle version... à condition de ne pas avoir fait de modifications dans le code ou le schéma de base de données.

De nombreux filtres sont accessibles dans le logiciel sur différents critères :

  • annotations des gènes (soit par identifiant, nom, synonyme, symbole, ...)
  • valeurs numériques (valeurs d'intensités, ratio, position sur la puce, ...)

Le logiciel permet de suivre 'la vie' d'un gène d'intérêt depuis sa position dans sa plaque 384 ou 96 puits jusqu'à ses valeurs de quantification et de normalisation. Il permet également de visualiser aisément le comportement d'un gène à travers différentes hybridations d'une même expérience. Grâce un système de couleur du ratio (du vert au rouge en passant par le jaune), on sait rapidement si le gène est up-régulé, down-régulé ou non différentiellement exprimé.

La dernière version intègre les données de séquençage haut débit liées à la transcription.
Ce logiciel permet également d'importer en masse des données provenant des expériences d'autres utilisateurs.

Interopérabilité
  • Importation des données
    BASE permet de rentrer des fichiers textes contenant les valeurs d'intensités de différents logiciels de quantifications, des expériences de macroarrays, microarrays, de puces à haute densité. Certains logiciels de quantification (genepix, imagene, ...) sont connus dans le logiciel, pour les autres on peut insérer les données en définissant le format de fichier approprié.

  • Exportation des données
    Des formats de fichiers sont prédéfinis pour l'exportation des données afin de les importer dans d'autres logiciels (MEV, Eisen, ...), mais l'utilisateur peut également choisir lui-même les données qu'il veut exporter.

Contexte d'utilisation dans mon laboratoire/service
  • Je travaille sur une plateforme transcriptome qui fournit un service complet pour les puces à ADN (spotting, marquage, hybridation, scan, quantification et analyses statistiques). Pour mettre à disposition les données générées (protocoles, fichiers de quantifications, analyses) à plusieurs utilisateurs en même temps, nous avons choisi ce logiciel qui nous satisfait.
    Il facilite grandement le partage des informations et la consultation.
  • Bien que peu intuitif au départ car complet, les utilisateurs s'approprient la partie du logiciel pour consulter les résultats de leurs analyses assez facilement. L'insertion des données dans le logiciel est faite quant à elle par les spécialistes de la plateforme.
  • C'est pour moi un très bon logiciel qui correspond aux besoins d'une plateforme. Il est bien avancé, avec une communauté d'utilisateurs et de développeurs importante.
  • Puisque le code est libre, on peut même adapter le logiciel à ses besoins propres si nécessaire.
Limitations, difficultés, fonctionnalités importantes non couvertes
  • Ce logiciel est avant tout développé pour des biologistes, mais l'installation n'est possible que s'il y a un informaticien pour s'en occuper.
  • Le logiciel est un peu dur à prendre en main au premier abord.
  • L'insertion des données peut demander également de définir des formats de fichiers qui peuvent ne pas être intuitifs au départ.
Environnement du logiciel
Distributions dans lesquelles ce logiciel est intégré

Aucune, il faut soi-même l'installer, étant un logiciel très spécifique.

Plates-formes

Il s'installe sur linux.
Ce que j'ai testé :

  • Pour la première version sur fedora :
    BASE 1.2.17 : PHP 5.1.6 - Apache/2.2.3 - PostgreSQL 8.0.8
  • Pour la seconde version sur fedora :
    BASE 2.3 -> 2.5 : Tomcat 5.5.17 - Java SDK 1.5 (java 1.5.0_09) - PostgreSQL 8.0.8
Logiciels connexes
  • TMEV : permet d'analyser les données de puces à ADN. C'est un complément à BASE. Permet de faire du clustering hiérarchique, des k-means, SOM, SAM, ANOVA, t-tests, ... licence : Artistic License.
  • TreeView : permet de faire du clustering. C'est un complément à BASE.
Autres logiciels aux fonctionnalités équivalentes

Plusieurs existent, ici une liste non exhaustive de logiciels avec des fonctionalités qui peuvent varier un peu, mais qui concernent les microarrays :

Environnement de développement
Type de structure associée au développement

C'est un logiciel qui est développé depuis 2002 avec le soutien initial de :

  • la fondation Knut and Alice Wallenberg en Suède,
  • le consortium SWEGENE,
  • the Swedish Cancer Society,
  • l'Université de Lund.

Désormais il y a 3 sponsors : l'université de Lund, L'information Society Technologies et ACGT.

Eléments de pérennité
  • Le développement de la version 3 est en cours et intègre désormais les données de séquençages haut débit. Le logiciel pourrait avoir une seconde vie car la technologie des puces à ADN semble de moins en moins utilisées avec l'arrivée des séquenceurs nouvelle génération haut débit.
  • La communauté de développeurs est importante et active (9 développeurs actuellement) ainsi que la communauté d'utilisateurs qui contribuent par l'ajout de plugins ou tout simplement pour répondre sur la mailing list,
  • Les développements sont actifs,
  • La mailing list est active, puisqu'en moyenne l'an dernier, il y a eu 26 messages par mois.
  • Ce logiciel est très utilisé.
Références d'utilisateurs institutionnels

Endroits où est utilisé ce logiciel en France :

  • Plateforme MGX de Montpellier
  • Plateforme bioinformatique de l'INRA de Jouy-en-Josas
  • Plateforme de l'Inserm de Nantes
  • Génopole de Lille
  • INRA de Toulouse
Environnement utilisateur
Liste de diffusion ou de discussion, support et forums
Documentation utilisateur

Documentation complète (pdf ou html) sur le site officiel

http://base.thep.lu.se/#Documentation

Contributions

Toutes les informations se trouvent sur le site officiel http://base.thep.lu.se/
Chacun peut participer au développement, créer des plugins.

Fiche logiciel validé
  • Création ou MAJ importante : 18/02/13
  • Correction mineure : 16/03/13
  • Rédacteur de la fiche : David Allouche - un des concepteurs du logiciel - BIA toulouse (INRA, INRIA, CNRS)
  • Relecteur(s) : Emmanuel Courcelle (LIPM)
  • Contributions importantes : Christophe Caron (MIG INRA Jouy-en-Josas)
  • Responsable thématique : Christelle Dantec (CRBM)
Mots-clés
Pour aller plus loin
Fiche en recherche de repreneur
Cette fiche est en recherche d'un repreneur. Si vous êtes intéressé(e)s, contactez-nous !

BioMAJ : moteur de workflows pour la synchronisation des données (en biologie notamment)

Une fiche Dév Ens Sup est en relation avec cette fiche, consultez-la pour plus d'informations : BioMAJ
Description
Fonctionnalités générales

BioMaJ (Biologie Mise A Jour) est un moteur de workflows dédié à la synchronisation puis au traitement de données. L’application peut gérer une masse de données importante et des workflows de post-traitements relativement complexes: typiquement, l'indexation de banques de données peut constituer un post-traitement. Une des motivations de son développement a été la mise en place d'une démarche qualité pour la maintenance des données de séquence biologiques.
Initialement conçue pour traiter des données de biologie, BioMaJ est généraliste et peut être utilisée dans tout domaine ayant à gérer des données massives et distribuées, qui nécessitent des consolidations puis des traitements.
Elle peut également être utilisée simplement pour synchroniser les données entre un appareillage disposant d’un server ftp et un serveur central unix: l’avantage est alors une traçabilité complète des sessions réalisées. Enfin dans un autre registre BioMaJ peut être utilisé pour déployer des données sur une frontale de calcul en vue de leur traitement. Ce mode d'utilisation est maintenant facilité par son interface graphique (biomajwatcher), qui permet selon son groupe et ses droits :

  • d’administrer,
  • de consulter,
  • de post-traiter,
  • ou de planifier la mise à jour de source de données publiques (visibles de tous) ou privées (visibles uniquement d'un utilisateur ou d'un groupe) 

L'application est disponible pour les principales distributions linux.

Autres fonctionnalités
  • Synchronisation
    • Support de protocoles variés (ftp, sftp, rsync , local copy, AmazonS3, Http direct URL download)
    • Sélection de tout ou parti des données de la source via des expressions régulières.
    • Reprise sur erreur lors de la synchronisation et des post-traitements
    • Vérification de l'intégrité des données transférées
    • Multi threading
    • Normalisation de l'organisation des versions et des données
  • Post processing
    • Formalisme facile mais avancé de description de workflows (D.A.G)
    • Post-process d'indexation prêts à l'emploi pour de multiples applications bioinformatiques (blast, srs, fastacmd, readseq, etc.)
    • Intégration aisée de script de post- traitements personnel dans le langage de votre choix
  • Supervision
  • interface d'analyse des log
    • Génération automatique de rapports d'exploitation du logiciel au format html
    • incluant différentes statistiques représentées sous forme de Graphes, notamment :
    • de suivi d'évolution du dépôt global
    • de suivi d'évolution individuelle pour chaque source maintenue
    • Envoi d'un courriel lors de l'exécution d'un cycle de mise à jour
    • Interrogation en ligne du contenu du dépôt

Un éventail important de fichiers de description de workflows pour la récupération et l'indexation de banques de données biologiques est disponible sur le site du projet (Genbank, PDB, EMBL, Swissprot, génomes complets, tant eucaryotes que procaryotes, ....). Des scripts d'indexation ou de conversion de format pour une dizaine d'outils bioinformatiques sont également mis à disposition.

la dernière version inclut des nouvelles interfaces pour :
* la consultation et l'administration (Bmajwatcher)
* la maintenance de banque privées visible par un utilisateur
* le déport automatique de calcul de post-processus via un système de queue
* la gestion des dépendances entre banques
* une interface permettant la planification des mises à jours de banques
* l'application supporte maintenant la connexion aux cloud Amazon et google

Interopérabilité

BioMAJ est compatible avec les OS de base UNIX disposant de java 1.6.x et ant 1.7.
BioMAJ n'est pas compatible avec les OS Microsoft car l'application utilise des liens symboliques ( sur des fichiers et des répertoires).

Contexte d'utilisation dans mon laboratoire/service

BioMaJ est déjà utilisée par trois plates-formes bioinformatique depuis 2007, ou il maintient environ une soixantaine de banques biologiques (genbank , embl, swissprot, genomes, pdb ...) occupant plusieurs Téraoctets.
En résumé BioMaJ permet de:

  • Réaliser le mirroring de données distantes ou locales
  • Automatiser des traitements sur les données (via des post-processus fournis ou vos propres script de traitement)
  • Si on inverse le référentiel, l'application peut être utilisée pour déployer des données en vue de leur traitement sur un serveur distant
  • Il peut être aussi utilisé pour maintenir la mise à jour de logiciel non distribué sous aptitude ou yum

Vous pouvez consulter un rapport d'exécution en cliquant ici.

Limitations, difficultés, fonctionnalités importantes non couvertes
  • Le mode block de rsync n'est pas supporté.
Environnement du logiciel
Distributions dans lesquelles ce logiciel est intégré

debian sid , ubuntu

Plates-formes
  • BioMaJ a été développé en Ant et java, elle supporte donc une grande variété de systèmes UNIX : distributions linux, solaris, MacOS X, BSD.
  • L'application ne fonctionne pas sous les OS Microsoft car elle utilise des liens dans la phase de synchronisation des données.
Logiciels connexes
  • Java
  • ant
  • wget
  • tar
  • gzip
  • bzip
  • unzip
  • tomcat
Autres logiciels aux fonctionnalités équivalentes

Pas d'équivalent incorporant l'ensemble des fonctionnalités.

Environnement de développement
Type de structure associée au développement

BioMAJ est le fruit d'une collaboration entre des membres issus de 3 équipes de recherche françaises :

Eléments de pérennité
  • Technologie java
  • Protocoles de communication standards
Références d'utilisateurs institutionnels

L’application est utilisée sur trois plates-formes bioinformatiques françaises (INRA, INRIA, CNRS) pour assurer la maintenance des principales banques de données biologiques mises à disposition par la communauté scientifique internationale.

Environnement utilisateur
Liste de diffusion ou de discussion, support et forums
Documentation utilisateur
  • Un manuel d'utilisation complet ainsi qu'un tutoriel d'installation sont disponibles sur le site.
  • L'application est distribuée avec un ensemble d'exemples de workflows de maintenance des principales banques de données biologiques.
  • Plusieurs post-processus sont également disponibles.
Contributions

L'objectif de la fiche plume est de promouvoir l'utilisation de BioMAJ et éventuellement de mutualiser les workflows de maintenances de sources de données pour les banques de données publiques (en biologie ou autres disciplines: chimie , physique, spatial, ...).
Les besoins de contribution sont :

  • Ecriture de nouveaux workflows pour des sources de données publiques en biologie, mais surtout dans d'autres disciplines
  • Ecriture de scripts de pré ou post-processus pour effectuer des traitements métiers sur les données.
  • Développement d'interfaces hommes-machines pour l'édition de workflows.

Si vous voulez contribuer, vous pouvez contacter les membres du projet à l'adresse mail : biomaj_AT_genouest.org

Fiche logiciel validé
  • Création ou MAJ importante : 28/05/13
  • Correction mineure : 10/06/13
Mots-clés

R : analyse statistique et réalisation de graphiques

Description
Fonctionnalités générales

R est à la fois un langage de programmation et un logiciel pour l'analyse statistique et la réalisation de graphiques.

  • R permet de gérer et stocker des données.
  • R est un langage interprété qui permet les embranchements et les boucles.
  • Il existe de nombreux modules (packages) contenant des fonctions statistiques prédéfinies, comme les modèles linéaires et linéaires généralisés, les modèles de régression non-linéaire, l'analyse de séries temporelles, les tests de classification paramétriques et non-paramétriques, les méthodes de groupement et de lissage, les statistiques spatiales, les valeurs extêmes...
  • Les résultats obtenus par les calculs statistiques sont stockables, exportables et réutilisables dans des fonctions.
  • On peut exporter les graphiques sous divers formats (image ou forme vectorielle).
Autres fonctionnalités
  • La plupart des routines R sont écrites en R.
  • Les routines écrites pour S plus (logiciel équivalent commercial) sont généralement valables en R.
Interopérabilité
  • De nombreux packages de R sont directement issus d'autres logiciels ou langages (WinEdt, Perl, Tlc/Tk, Python, Winbugs...)
  • Le projet Bioconductor (http://www.bioconductor.org/) propose de nombreux packages dédiés à l'analyse de données biologiques.
  • R peut être utilisé depuis SAGE
Limitations, difficultés, fonctionnalités importantes non couvertes
  • Messages d'erreur parfois obscurs...
  • Gourmand en mémoire
Environnement du logiciel
Distributions dans lesquelles ce logiciel est intégré

Distributions linux

Plates-formes
  • GNU/Linux
  • Mac OS X
  • Windows 95 et versions suivantes.
    Aide en anglais, interface graphique sur Windows en français et en anglais.
Logiciels connexes
Autres logiciels aux fonctionnalités équivalentes
  • S plus, logiciel commercial.
  • SAS, logiciel commercial.
  • ROOT.
Environnement de développement
Eléments de pérennité
  • Largement utilisé, existence depuis 1997.
  • Les conférences annuelles depuis 2006.
  • R-journal.

R a été validé par la Food Drug Administration (fin 2008). Il peut donc être utilisé dans le cadre des études cliniques visant la mise sur le marche de nouveaux médicaments. SAS n'est donc plus le seul logiciel officiellement valide.

Le dossier de certification est disponible ( http://www.r-project.org/doc/R-FDA.pdf ).

Environnement utilisateur
Liste de diffusion ou de discussion, support et forums
Documentation utilisateur
Divers (astuces, actualités, sécurité)

Portail Web (exécuter R depuis internet) http://www.math.montana.edu/Rweb/

Contributions

Il est possible de réaliser et de soumettre ses propres packages.

Fiche logiciel validé
  • Création ou MAJ importante : 01/08/11
  • Correction mineure : 25/11/13
  • Rédacteur de la fiche : Olivier Langella - Concepteur du logiciel - UMR de GENETIQUE VEGETALE (INRA, CNRS, Université Paris Sud, AgroParisTech)
  • Relecteur(s) : Bruno Fady (INRA URFM)
  • Responsable thématique : Christelle Dantec (CRBM)
Mots-clés

Populations : génétique des populations

Une fiche Dév Ens Sup est en relation avec cette fiche, consultez-la pour plus d'informations :
Description
Fonctionnalités générales
  • Calcul de distances génétiques entre populations ou individus basé sur les fréquences allèliques.
  • Reconstruction d'arbre phylogénétiques (UPGMA ou Neighbour Joining) à partir de matrices de distances, avec ou sans bootstrap sur les locus ou individus.
  • Calculs de fréquences allèliques, Fstats.
  • Lecture et conversion de données entre les formats Populations, Genepop, Immanc, microsat, LEA Likelihood Estimation of Admixture, Admix (G. Bertorelle), Genetix, Fstat (Jérôme Goudet)
Autres fonctionnalités

'Populations' est apprécié pour le grand nombre de méthodes de distances disponibles :

Interopérabilité

Les formats principaux supportés en lecture et écriture sont Populations, Genepop, Génétix.
Populations permet la conversion des données entre ces 3 logiciels, et l'export dans les formats : Immanc, microsat, LEA Likelihood Estimation of Admixture, Admix (G. Bertorelle), Fstat (Jérôme Goudet).

Limitations, difficultés, fonctionnalités importantes non couvertes

L'absence d'interface graphique, la nécessité d'utiliser un outil annexe pour visualiser les arbres phylogénétiques (treeview par exemple).

Environnement du logiciel
Distributions dans lesquelles ce logiciel est intégré

Debian Wheezy

Plates-formes

Windows, Unix.
Des paquets logiciels sont disponibles pour Ubuntu à cette adresse :
https://launchpad.net/~olivier-langella/+archive/ppa
A partir des sources (outils gnu), Populations peut être compilé sur plateformes Intel 64 bits, Macintosh (Powerpc), stations Sun ...

Logiciels connexes

Treeview (http://taxonomy.zoology.gla.ac.uk/rod/treeview.html) très utile pour visualiser les arbres phylogénétiques produits par Populations. Ce logiciel n'est pas requis pour le bon fonctionnement de Populations.

Autres logiciels aux fonctionnalités équivalentes
Environnement de développement
Type de structure associée au développement

Je développe Populations en temps que particulier sur le site :
http://www.bioinformatics.org/
Le développement est ouvert à toute personne inscrite sur le site.

Eléments de pérennité

Le code source est très portable (C++ standard et bibliothèque QT 4.5).
Les erreurs rapportées sont corrigées et les patchs appliqués (serveur subversion de bioinformatics.org).
Depuis la première version en 1999, le code évolue toujours. Dans la version en développement 1.2.32 (janvier 2010), la compilation est maintenant gérée par Cmake, et la bibliothèque Qt est utilisée pour sa portabilité et ses fonctionnalités XML. La version Windows devrait bénéficier de ces améliorations.

Références d'utilisateurs institutionnels

UMR de GENETIQUE VEGETALE (http://moulon.inra.fr/)
LEGS (http://www.legs.cnrs-gif.fr/)
Populations est souvent cité dans les travaux scientifiques relatifs à la génétique des populations (49 citations en 2006).

Environnement utilisateur
Documentation utilisateur
Divers (astuces, actualités, sécurité)

Populations est très apprécié pour sa facilité d'utilisation (bien qu'il ne soit pas équipé d'une interface graphique).
Une attention particulière est portée sur la gestion des erreurs pour guider l'utilisateur (problème de format de données, opération impossible).
La disponibilité des sources permet de le recompiler facilement pour profiter au maximum de capacités des gros calculateurs (par exemple) ce qui est apprécié pour certains calculs très gourmands.
Populations n'a pas de limite sur le nombre de populations, individus, locus traités.

Contributions

En m'envoyant des corrections, rapports de bugs, complément de documentation. ou en s'inscrivant sur http://bioinformatics.org/ pour directement travailler sur le code source (C++).

Syndiquer le contenu