Galaxy : plateforme pour analyser les données génomiques

Fiche PLUME
  • Statut de la fiche : Logiciel : MAJ Relue par RT
  • Création ou MAJ importante : 04/10/2011
  • Correction mineure : 18/11/2013
  • Auteur : Christelle Dantec - Montpellier GenomiX (CNRS, INSERM, Universités de Montpellier)
  • Responsable thématique : Emmanuel Courcelle (LIPM)
Mots clés
Description
Fonctionnalités générales

Galaxy est une plateforme qui propose une "constellation" d'outils pour analyser, manipuler et visualiser des données génomiques, sans avoir besoin de connaissance en programmation. Elle est développée par The Center for Comparative Genomics and Bioinformatics
L'utilisateur peut réaliser 4 grands types d'opérations :

Manipulation de fichiers:

  • Ouvrir un fichier de plusieurs millions de lignes (là où les tableurs classiques ne le permettent pas)
  • Ajouter ou supprimer des colonnes
  • Supprimer des lignes d'un fichier
  • Filtrer les fichiers sur différents critères
  • Trier les fichiers
  • Concaténer plusieurs fichiers
  • Concaténer des colonnes d'un même fichier ensemble
  • Regrouper plusieurs fichiers dans un seul fichier en colonnes
  • Comparer des listes entre elles (intersection)
  • Faire des conversions de fichiers (par exemple transformer un fichier BED en un fichier GFF)
  • Transformer les délimiteurs du fichier en tabulation (par exemple transformer un ';' en '\tab')

Opérations sur les données:

  • Sommer, moyenner, soustraire
  • Réaliser différentes opérations sur des fichiers fasta (calculer la longueur des séquences, formater la longueur des lignes, convertir des séquences ARN en ADN)
  • Créer ses propres intervalles génomiques pour servir à des analyses
  • Réaliser différentes opérations sur les intervalles génomiques (merge, intersection, soustraction, complément)
  • Calculer la couverture d'une région déterminée

Analyse de séquences:

  • Calculer des corrélations
  • Trouver des orthologues
  • Utiliser les outils d' EMBOSS
  • Aligner les données de séquencage (bowtie)
  • Déterminer des "pics" (par exemple MACS pour de la ChipSeq)

Visualisation des données:

  • Afficher les données dans un génome browser (UCSC, Ensembl)
  • Générer des graphes sur les distributions des données (histogramme, scatterplot)
  • Afficher des alignements multiples

Chaque service est décrit et très souvent des exemples explicitent le résultat renvoyé par la fonction concernée.

Galaxy propose de plus en plus d'outils pour manipuler et analyser les données de NGS (séquenceurs nouvelle génération) ce qui en fait un outil incontournable.

Autres fonctionnalités
  • Créer un compte permet d'avoir un espace de stockage personnalisé et garder l'historique des opérations et les fichiers téléchargés
  • Il est possible de partager ses données et les opérations réalisées : soit à toutes les personnes ayant un compte dans l'instance de Galaxy, soit en créant un lien et en diffusant ce lien, soit en spécifiant les personnes autorisées à voir les données. Cette option est très pratique
  • Passer certaines colonnes de minuscules à majuscules
  • Sélectionner les premières ou dernières lignes d'un fichier
  • Sélectionner des lignes qui correspondent à une expression particulière (exemple c1='chrUn')
  • "Mapper" des séquences sur une séquence de référence
  • Construction d'arbres phylogénétiques
  • Manipulation de fichier de format gff
  • Possibilité de faire un workflow des opérations et fonctionnalités faites
  • Pour les développeurs: possibilité d'intégrer facilement nos propes outils développés (exemple: calcul du pourcentage de GC dans une séquence)
Interopérabilité

Peuvent être utilisés:

Contexte d'utilisation dans mon laboratoire/service
  • Ce logiciel est utilisé par tous les utilisateurs de la plateforme MGX pour manipuler les données de séquençage.
  • Cet outil est aussi utilisé pour manipuler les informations contenues dans un fichier, de façon simple et rapide.
  • Les fonctionnalités de "mapping" des séquences, et d'analyse des régions de variation ("indel", substitution) sont aussi utiles.
  • La construction de worflow résumant l'ensemble des fonctionnalités utilisées est très demandée.
  • Grâce à la possibilté d'y intégrer nos propres outils (outils très utiles et fréquemment utilisés), ce logiciel peut devenir une véritable boite à outils.
Limitations, difficultés, fonctionnalités importantes non couvertes
  • Le logiciel propose beaucoup de services: il faut donc passer du temps pour exploiter pleinement le logiciel.
  • Les fichiers peuvent être volumineux. Il est possible de télécharger un fichier zippé, mais ce fichier une fois téléchargé sur le serveur est dézippé.
Environnement du logiciel
Plates-formes
Logiciels connexes

UCSC, gratuit pour les académiques, payant pour un usage commercial. (Licence).
Ensembl , (Licence)
BioMart
FlyMine
EncodeDB

Autres logiciels aux fonctionnalités équivalentes
  • SRS

Logiciels ayant certaines des fonctions de Galaxy:

Environnement de développement
Eléments de pérennité
  • Il existe une très grande communauté d'utilisateurs
  • UCSC, génome browser très utilisé fait référence à Galaxy
  • La dynamique des développeurs
  • C'est le seul logiciel à ma connaissance, permettant à des personnes non informaticiens d'ouvrir des fichiers de plusieurs millions de lignes et pouvoir les rendre autonomes pour faire des calculs, filtres
Références d'utilisateurs institutionnels
Environnement utilisateur
Liste de diffusion ou de discussion, support et forums
  • La FAQ
  • Pour signaler un bug, faire des suggestions : galaxy-bugs [at] bx [dot] psu [dot] edu
  • Pour toutes questions sur l'utilisation de Galaxy : galaxy-user [at] bx [dot] psu [dot] edu
  • Pour toutes questions sur l'installation, la configuration ou l'intégration d'outils : galaxy-dev [at] bx [dot] psu [dot] edu
Documentation utilisateur

Le wiki

Pour citer Galaxy

Des tutoriels pour le développement sont disponibles ici et

Contributions

Des outils peuvent être développés et intégrés dans Galaxy. Les questions sont à poster sur galaxy-dev [at] bx [dot] psu [dot] edu
Pour la partie développement ici et ici