Galaxy
Description
Fonctionnalités générales
Galaxy est une plateforme qui propose une "constellation" d'outils pour analyser, manipuler et visualiser des données génomiques, sans avoir besoin de connaissance en programmation. Elle est développée par The Center for Comparative Genomics and Bioinformatics
L'utilisateur peut réaliser 4 grands types d'opérations :
Manipulation de fichiers:
- Ouvrir un fichier de plusieurs millions de lignes (là où les tableurs classiques ne le permettent pas)
- Ajouter ou supprimer des colonnes
- Supprimer des lignes d'un fichier
- Filtrer les fichiers sur différents critères
- Trier les fichiers
- Concaténer plusieurs fichiers
- Concaténer des colonnes d'un même fichier ensemble
- Regrouper plusieurs fichiers dans un seul fichier en colonnes
- Comparer des listes entre elles (intersection)
- Faire des conversions de fichiers (par exemple transformer un fichier BED en un fichier GFF)
- Transformer les délimiteurs du fichier en tabulation (par exemple transformer un ';' en '\tab')
Opérations sur les données:
- Sommer, moyenner, soustraire
- Réaliser différentes opérations sur des fichiers fasta (calculer la longueur des séquences, formater la longueur des lignes, convertir des séquences ARN en ADN)
- Créer ses propres intervalles génomiques pour servir à des analyses
- Réaliser différentes opérations sur les intervalles génomiques (merge, intersection, soustraction, complément)
- Calculer la couverture d'une région déterminée
Analyse de séquences:
- Calculer des corrélations
- Trouver des orthologues
- Utiliser les outils d' EMBOSS
- Aligner les données de séquencage (bowtie)
- Déterminer des "pics" (par exemple MACS pour de la ChipSeq)
Visualisation des données:
- Afficher les données dans un génome browser (UCSC, Ensembl)
- Générer des graphes sur les distributions des données (histogramme, scatterplot)
- Afficher des alignements multiples
Chaque service est décrit et très souvent des exemples explicitent le résultat renvoyé par la fonction concernée.
Galaxy propose de plus en plus d'outils pour manipuler et analyser les données de NGS (séquenceurs nouvelle génération) ce qui en fait un outil incontournable.
Autres fonctionnalités
- Créer un compte permet d'avoir un espace de stockage personnalisé et garder l'historique des opérations et les fichiers téléchargés
- Il est possible de partager ses données et les opérations réalisées : soit à toutes les personnes ayant un compte dans l'instance de Galaxy, soit en créant un lien et en diffusant ce lien, soit en spécifiant les personnes autorisées à voir les données. Cette option est très pratique
- Passer certaines colonnes de minuscules à majuscules
- Sélectionner les premières ou dernières lignes d'un fichier
- Sélectionner des lignes qui correspondent à une expression particulière (exemple c1='chrUn')
- "Mapper" des séquences sur une séquence de référence
- Construction d'arbres phylogénétiques
- Manipulation de fichier de format gff
- Possibilité de faire un workflow des opérations et fonctionnalités faites
- Pour les développeurs: possibilité d'intégrer facilement nos propes outils développés (exemple: calcul du pourcentage de GC dans une séquence)
Interopérabilité
Peuvent être utilisés:
- Les fichiers au format texte
- Les fichiers au format .bed
- Les fichiers au format gff
- Les fichiers au format FASTA
- Les fichiers au format MAF
- Les fichiers au format FASTQ
Contexte d'utilisation dans mon laboratoire/service
- Ce logiciel est utilisé par tous les utilisateurs de la plateforme MGX pour manipuler les données de séquençage.
- Cet outil est aussi utilisé pour manipuler les informations contenues dans un fichier, de façon simple et rapide.
- Les fonctionnalités de "mapping" des séquences, et d'analyse des régions de variation ("indel", substitution) sont aussi utiles.
- La construction de worflow résumant l'ensemble des fonctionnalités utilisées est très demandée.
- Grâce à la possibilté d'y intégrer nos propres outils (outils très utiles et fréquemment utilisés), ce logiciel peut devenir une véritable boite à outils.
Limitations, difficultés, fonctionnalités importantes non couvertes
- Le logiciel propose beaucoup de services: il faut donc passer du temps pour exploiter pleinement le logiciel.
- Les fichiers peuvent être volumineux. Il est possible de télécharger un fichier zippé, mais ce fichier une fois téléchargé sur le serveur est dézippé.
Commentaires
GT GALAXY IFB : journée d'animation 4 dec. 2013
Le Groupe de Travail Galaxy-IFB organise une journée d'animation autour de la plateforme Galaxy le mercredi 4 décembre à Paris (Institut Curie - 9H30-17H00).
Cette journée a pour principal objectif d'exposer les retours d'expérience de laboratoires ou plateformes, sous la forme de présentations de 20 minutes, autour de la plateforme Galaxy.
Ces présentations peuvent aussi bien cibler des retours d'expérience autour d'une installation et mise en production d'une plateforme, que des nouveaux usages/domaines, ou encore des développements technologiques.
Si vous souhaitez soumettre une présentation, merci d'envoyer un résumé en anglais de 15/20 lignes maximum à ifb [dot] galaxy [at] sb-roscoff [dot] fr avant le 10 octobre, avec pour sujet [Galaxy Day].
En vous remerciant.
Pour les membres du Groupe Galaxy IFB
URGI, GenoToul, MIGALE, PFEM, SouthGreen, Institut Curie, ABiMS