L'algorithme GAGG est utilisé pour réaliser des groupes de gènes ayant des profils d'expression similaires.
Il peut être utilisé par toute personne (biologiste, statisticien, bioinformaticien essentiellement) ayant un prérequis minimal dans l'utilisation du logiciel R. Des connaissances en statistique et notamment en analyse en composantes principales sont un plus pour la compréhension des sorties graphiques, mais ne sont pas indispensables dans la mesure où les groupes sont générés de manière autonome par l'algorithme. De la même façon, des paramètres par défaut sont donnés pour l'algorithme génétique, le paramètre Tpop relatif à la taille de la population et le paramètre Ngene relatif au nombre de générations pourra être augmenté par l'utilisateur, ce qui augmentera les chances de converger vers la solution optimale mais rallongera le temps de calcul.
L'algorithme permet de traiter indifféremment des puces à ADN monocolore ou bicolore, le pre-traitement des données étant laissé à l'utilisateur qui peut choisir les techniques de son choix pour la normalisation (Quantile normalization, loess, lowess etc..), la standardisation et toute autre forme de pré-traitement des données, notamment PM seul ou PM-MM, log2(cy3/cy5) ou log10(cy3/cy5) ou uniquement cy3/cy5 etc...
Les données doivent donc être sous la forme d'une matrice avec en lignes les gènes et en colonnes les différentes conditions expérimentales. Si nécessaire, l'algorithme pourra ultérieurement être complété par une étape de pré-traitement.
La méthode GAGG donne de bon résultats pour la classification de gènes, pour cela elle utilise un algorithme génétique qui est gourmand en calcul, ce qui entraîne un temps d'éxécution généralement long (plusieurs heures), fonction de la taille des données et des paramètres Tpop et Ngene. Au début de l'algorithme, un message demande combien l'utilisateur veut calculer de composantes aux vues des pourcentages affichés plus haut, pour les non initiés à l'analyse en composantes principales, on prendra la plupart du temps deux composantes excepté si la troisième composante apporte encore beaucoup d'information, à savoir que plus le nombre de composantes sera élevé plus le nombre de groupes risque d'être élevé.
Le code source peut être téléchargé.