GAGG

Fiche dév Ens Sup - Recherche
  • Création ou MAJ importante : 17/02/10
  • Correction mineure : 23/03/10
  • Auteur de la fiche : Florian Salipante (IGF - Contrôle de l'apoptose et de la prolifération dans les systèmes neuronaux et endocriniens)
  • Responsable thématique : Christelle Dantec (CRBM)
Mots-clés

GAGG : algorithme (codé en R) qui permet le clustering de gènes

Ce logiciel a été développé (ou est en cours de développement) dans la communauté de l'Enseignement Supérieur et de la Recherche. Son état peut être variable (cf champs ci-dessous) donc sans garantie de bon fonctionnement.
  • Site web
  • Système : UNIX-like, Windows, MacOS X
  • Version actuelle : 1.1 - 12/01/2010
  • Licence(s) : choix en cours, contacter l'auteur
  • Etat : utilisé en interne
  • Support : maintenu, développement en cours
  • Concepteur(s) : Florian Salipante, Christelle Reynès, Robert Sabatier
  • Contact concepteur(s) : florian.salipante@univ-montp1.fr
  • Laboratoire(s), service(s)... : IGF, équipe d'accueil 'Laboratoire de Physique Industrielle et Traitement de l'Information'

 

Fonctionnalités générales du logiciel

GAGG (Genetic Algorithm for Gene Gathering) est une nouvelle méthode statistique qui détecte les gènes différentiellement exprimés et les regroupe en classes en fonction de leurs profils d’expression. C’est une méthode factorielle basée sur un codage en entiers des variables de projection. Elle permet de prendre en considération l’aspect multivarié des données et parvient à détecter les gènes les plus intéressants. Elle repose sur l’utilisation d’un algorithme génétique et combine plusieurs critères statistiques liés à l’ACP et aux k-means. Cette méthode a été implémentée sous R .
Le code est composé de cinq fonctions, une fonction principale GAGG, trois fonctions internes GAGG1, GAGG2 et GAGG3, et une fonction permettant de visualiser les profils de gènes PlotProfiles.

 

Profils
Contexte d’utilisation du logiciel

L'algorithme GAGG est utilisé pour réaliser des groupes de gènes ayant des profils d'expression similaires.

Il peut être utilisé par toute personne (biologiste, statisticien, bioinformaticien essentiellement) ayant un prérequis minimal dans l'utilisation du logiciel R. Des connaissances en statistique et notamment en analyse en composantes principales sont un plus pour la compréhension des sorties graphiques, mais ne sont pas indispensables dans la mesure où les groupes sont générés de manière autonome par l'algorithme. De la même façon, des paramètres par défaut sont donnés pour l'algorithme génétique, le paramètre Tpop relatif à la taille de la population et le paramètre Ngene relatif au nombre de générations pourra être augmenté par l'utilisateur, ce qui augmentera les chances de converger vers la solution optimale mais rallongera le temps de calcul.

L'algorithme permet de traiter indifféremment des puces à ADN monocolore ou bicolore, le pre-traitement des données étant laissé à l'utilisateur qui peut choisir les techniques de son choix pour la normalisation (Quantile normalization, loess, lowess etc..), la standardisation et toute autre forme de pré-traitement des données, notamment PM seul ou PM-MM, log2(cy3/cy5) ou log10(cy3/cy5) ou uniquement cy3/cy5 etc...

Les données doivent donc être sous la forme d'une matrice avec en lignes les gènes et en colonnes les différentes conditions expérimentales. Si nécessaire, l'algorithme pourra ultérieurement être complété par une étape de pré-traitement.

La méthode GAGG donne de bon résultats pour la classification de gènes, pour cela elle utilise un algorithme génétique qui est gourmand en calcul, ce qui entraîne un temps d'éxécution généralement long (plusieurs heures), fonction de la taille des données et des paramètres Tpop et Ngene. Au début de l'algorithme, un message demande combien l'utilisateur veut calculer de composantes aux vues des pourcentages affichés plus haut, pour les non initiés à l'analyse en composantes principales, on prendra la plupart du temps deux composantes excepté si la troisième composante apporte encore beaucoup d'information, à savoir que plus le nombre de composantes sera élevé plus le nombre de groupes risque d'être élevé.  

Le code source peut être téléchargé.

Publications liées au logiciel

Un article est en cours de publication sur la méthode GAGG dans la revue CSDA.

Fichier attachéTaille
profils.png120.73 Ko