biologie

Logiciels (logiciels libres en majorité) ou ressources (liées aux logiciels) utiles aux chercheurs et enseignants en biologie
Fiche dév Ens Sup - Recherche
  • Création ou MAJ importante : 15/11/13
  • Correction mineure : 15/11/13
Mots-clés

ScientiFig : création ou (re)formatage de figures pour les communications scientifiques

Ce logiciel a été développé (ou est en cours de développement) dans la communauté de l'Enseignement Supérieur et de la Recherche. Son état peut être variable (cf champs ci-dessous) donc sans garantie de bon fonctionnement.
  • Site web
  • Système : UNIX-like, Windows, MacOS X
  • Version actuelle : 2.6 - 02/10/2013
  • Licence(s) : BSD -
    ScientiFig utilise les composants BATIK et XML-apis, sous licence Apache, et Rsession, sous licence BSD.
  • Etat : diffusé en beta
  • Support : maintenu, sans développement en cours
  • Concepteur(s) : Benoit Aigouy
  • Contact concepteur(s) : Benoit Aigouy
  • Laboratoire(s), service(s)... : GReD

 

Fonctionnalités générales du logiciel

Les chercheurs passent un temps considérable à réaliser des figures pour leurs communications scientifiques (présentations orales, publications dans des revues scientifiques, ...). Pour réaliser cette tâche, ils utilisent le plus souvent des logiciels conçus pour des graphistes qui ne sont pas adaptés à la création de figures "scientifiques".

ScientiFig, au contraire, est dédié spécifiquement à la production de figures formatées pour la recherche. C'est un plugin de FIJI/ImageJ et/ou un standalone, les trois utilisations sont possibles. Il permet d'assembler de manière cohérente des panneaux d'images de même tailles ou de tailles différentes, de leur associer une barre d'échelle et des annotations dont la position est préservée même lorsque l'utilisateur change la taille de la figure. ScientiFig peut exporter les figures générées au format png avec un fond transparent pour une meilleure intégration dans les documents bureautique ou au format vectoriel (pour être finalisé dans un éditeur d'images vectorielles). ScientiFig permet enfin de formater des figures pour différents journaux (il est aussi possible de créer, avec l'éditeur intégré, un nouveau style si le journal qui vous intéresse est absent), il suggère une taille de figure compatible avec le journal, le remplacement des polices non conformes, ...

On peut citer à titre de comparaison ces logiciels alternatifs :

Contexte d’utilisation du logiciel

ScientiFig est un logiciel d'assemblage/montage et de formatage d'images pour des publications scientifiques.

Publications liées au logiciel

ScientiFig: a tool to build publication-ready scientific figures. Aigouy B, Mirouse V. Nat Methods. 2013 Oct 30;10(11):1048. doi: 10.1038/nmeth.2692.

Fiche logiciel à valider
  • Création ou MAJ importante : 11/10/13
  • Correction mineure : 11/10/13
  • Rédacteur de la fiche : Alexandre Granier - Plate-forme MRI (CNRS)
  • Responsable thématique : Dirk Hoffmann (Centre de Physique des Particules de Marseille (CPPM-IN2P3))
Mots-clés
Pour aller plus loin
  • Fiches logiciel PLUME connexes : ImageJ
Fiche en recherche de relecteurs
Cette fiche est en recherche de relecteurs. Si vous êtes intéressé(e)s, contactez-nous !

NDPITools : conversion de fichiers NDPI (Nanozoomer Digital Pathology Image) au format TIFF ou JPEG

Ce logiciel est en cours d'évaluation par la communauté PLUME. Si vous utilisez ce logiciel en production dans notre communauté, merci de déposer un commentaire.
Description
Fonctionnalités générales

NDPITools est un logiciel permettant de convertir des fichiers NDPI (Nanozoomer Digital Pathology Image) au format TIFF ou JPEG et ce, en consommant peu de mémoire vive. NDPITools se situe dans la tradition des logiciels UNIX qui ne font qu'une chose mais de façon efficiente.

Le format NDPI est un format propriétaire d'Hamamatsu qui stocke des images issues de scanners de lame à différentes résolutions, pour différents niveaux de profondeurs et éventuellement sur plusieurs canaux d'acquisition. Les fichiers obtenus sont très souvent extrêmement volumineux (plusieurs Go), contiennent des images de très haute résolution (par exemple 180000 x 70000 pixels) et difficile à manipuler, voire impossible à ouvrir avec des outils standards comme ImageJ ou GIMP. NDPITools permet d'extraire de façon très rapide des tuiles contenues dans les fichiers NDPI, en précisant un niveau de zoom, un z-index, les coordonnées et la taille de la région à extraire.

NDPITools propose un greffon pour ImageJ afin de rendre possible la manipulation de ses images dans ce logiciel.

Autres fonctionnalités

NDPITools permet également de spécifier la quantité de mémoire maximale à utiliser pour l'extraction et donc de transformer la consommation de mémoire en temps processeur.

NDPITools prend place dans une suite logicielle autour du format NDPI d'une part et de la gestion de gros fichiers TIFF d'autre part. L'idée générale étant qu'un fichier NDPI peut se traiter in fine comme un gros fichier TIFF.

On peut noter entre autres :

  • ndpi2tiff qui permet de convertir le fichier NDPI en un fichier TIFF contenant toutes les images.

  • tiffmakemosaic qui permet de créer une mosaïque au format TIFF ou JPEG à partir d'un fichier TIFF. Il permet également de spécifier la quantité de mémoire maximum à utiliser pour cette opération.

  • tiffastcrop qui permet d'extraire une région rectangulaire d'un fichier TIFF sans charger toute l'image en mémoire.

Interopérabilité

Formats NDPI (propriétaire), TIFF et JPEG.

Contexte d'utilisation dans mon laboratoire/service

NDPITools intervient dans le cadre d'une application web de base de données d'images. Il permet un visionnage des images NDPI via le web et dans de très bonnes conditions. L'application web affiche les images à l'aide d'un tuilage de petites images à la manière des logiciels en ligne de cartographie. NDPITools agit en arrière plan et permet de créer les tuiles à la demande en utilisant l'option "e". La vitesse d'extraction des tuiles est suffisamment élevée pour reconstruire une image dans un contexte web.

Cette possibilité offerte par NDPITools est très appréciée par les utilisateurs de la base de données d'images et constitue pour une plate-forme d'imagerie une économie substantielle en termes de stockage, puisque les tuiles n'ont pas besoin d'être préparées à l'avance et gardées dans la base de données.

Limitations, difficultés, fonctionnalités importantes non couvertes

Ce logiciel se limite à la manipulation des formats NDPI, très spécifiques. Néanmoins, l'auteur propose également un équivalent pour manipuler les fichiers TIFF.

Environnement du logiciel
Plates-formes

Unix-like, Windows, Mac OS X 10.6+

Logiciels connexes
Environnement de développement
Type de structure associée au développement

Laboratoire d'Imagerie et Modélisation en Neurobiologie et Cancérologie (UMR 8165)

Références d'utilisateurs institutionnels

Parmis les utilisateurs de NDPITools, on peut mentionner :

  • Laboratoire IMNC
  • Université de Californie
  • Montpellier RIO Imaging
Environnement utilisateur
Documentation utilisateur

Des consignes d'installation et d'utilisation sont disponibles sur le site NDPITools.

Divers (astuces, actualités, sécurité)

Exemples d'utilisation :
ndpisplit -m500J60 xx.ndpi
extrait une mosaïque de fichiers TIFF (un pour chaque niveau de grossissement et un pour chaque niveau de Z) de sorte que la quantité de mémoire pour ouvrir ces TIFF n'excède pas 500 Mo.

ndpisplit -g500x500 xx.ndpi
extrait une mosaïque dont chaque fichier TIFF aura une taille de 500 pixels × 500 pixels.

ndpisplit -e xx.ndpi
permet de spécifier quelle partie l'on souhaite extraire du fichier NDPI en précisant le coin supérieur gauche, la largeur, la hauteur ainsi que le niveau de Z et le grossissement.

Fiche logiciel validé
  • Création ou MAJ importante : 09/10/13
  • Correction mineure : 09/10/13
Mots-clés

Trinity : assemblage de-novo de séquences RNAseq

Description
Fonctionnalités générales

Trinity est un programme pour réaliser l’assemblage de-novo de données NGS de type RNAseq.

Trinity regroupe 3 modules indépendants (Inchworm, Chrysalis et Butterfly) qui sont utilisés séquentiellement pour le traitement de données de type RNAseq. Trinity utilise une approche basée sur des graphes de 'de Bruijn'. Chaque graphe individuel est représentatif de la complexité transcriptionnelle pour un locus ou gène donné. Le traitement de chaque graphe permet d’extraire les différentes isoformes d’épissage et de séparer les transcrits provenant de gènes paralogues. La séquence de traitement est la suivante :

  • Inchworm assemble les données RNAseq en séquences de transcrits, générant le plus souvent un transcrit majoritaire correspondant à l’isoforme dominante. Les portions spécifiques des transcrits d’épissages alternatifs sont également assemblées.
  • Chrysalis clusterise les contigs assemblés par Inchworm et construit un graphe de 'de Bruijn' pour chaque cluster. Ce graphe représente la complexité transcriptionnelle d’un gène donné (ou set de gènes qui partagent des séquences communes). Chrysalis répartit le jeu de lectures donné en entrée sur ces graphes disjoints.
  • Butterfly traite les graphes individuellement. Il réconcilie les données de graphes obtenues par Chrysalis avec les lectures (pairées et non pairées) correspondant à ces graphes afin de reconstruire une séquence linéaire pour chaque isoforme de transcrit ou gènes paralogues.

Usage :

Trinity est lancé en utilisant le script Trinity.pl qui se trouve dans le répertoire d’installation.

Trinity accepte des données de type « paired-end », « mate-pair » ou « single-end », orientés ou non orientés, bien que les performances soient meilleures sur des reads orientés.

Les données doivent être au format fastq ou fasta.

 

Exemples de ligne de commande :

Trinity.pl --seqType fq --JM 10G --left reads_1.fq --right reads_2.fq --CPU 6

L’assemblage Trinity peut également se faire par étape si nécessaire, en exécutant indépendamment Inchworm, Chrysalis et Butterfly avec des options spécifiques de Trinity.pl

 

Sorties de Trinity :

L’expérience montre que l’exécution de Trinity demande ~1/2 heure à 1 heure par million de paires de reads.

Après complétion, Trinity a créé un fichier de sortie Trinity.fasta dans le répertoire de sortie spécifié (trinity_out_dir par défaut) , contenant les différents transcrits assemblés.

 

Données test :

Trinity est distribué avec un jeu de données test « sample_data/test_Trinity_Assembly/ ».

Lancer le script shell « runMe.sh » exécutera le processus d’assemblage avec Trinity sur ces données.

Lancer le script shell « runMe.sh 1 » exécutera l’analyse postérieure de l’assemblage incluant l’alignement des lectures sur l’assemblage avec Bowtie ainsi que l’analyse d’abondance avec RSEM.

Autres fonctionnalités

Les analyses suivantes, en aval de l’assemblage, font partie de la suite Trinity :

  •  Alignement des lectures RNAseq sur les transcrits assemblés par Trinity pour visualiser dans IGV et estimer l’abondance utilisant RSEM.
  •  Utilisation de edgeR et Bioconductor pour l’analyse d’expression différentielle des transcrits.
  •  Extraction des régions potentiellement codantes pour des protéines à partir des transcrits.
Interopérabilité
  • En entrée : fasta, fastq, colorspace fasta, colorspace fastq
  • En sortie : fasta
Contexte d'utilisation dans mon laboratoire/service

Trinity est essentiellement utilisé pour l’assemblage de-novo de données RNAseq :

  • pour lesquelles il n’y a pas de génome disponible,
  • pour lesquelles le génome est fragmenté ou non annoté,
  • pour des applications où un assemblage de-novo est nécessaire (par exemple RNAseq d'individus mâles avec un génome de référence femelle...).
Limitations, difficultés, fonctionnalités importantes non couvertes
  • Pour l’assemblage avec référence (génome annoté), la suite Tophat/Cufflinks est préférable.
  • Trinity fonctionne avec Bowtie et non Bowtie 2.
  • Trinity est gourmand en mémoire vive (RAM).
Environnement du logiciel
Plates-formes

Linux, Mac, Windows

Logiciels connexes
  • Bowtie est un logiciel d’alignement de séquences NGS et est nécessaire pour l'alignement des lectures sur les assemblages et la quantification.
  • Visualisateurs d'alignement (tabletIGV ...).
Autres logiciels aux fonctionnalités équivalentes

SOAPdenovo-Trans (GPLv3), Oases (GPLv3), ABySS (freeware), CLC (propriétaire).

Environnement de développement
Eléments de pérennité

Fréquentes mises à jour, et équipe très réactive, du Broad Institute du MIT et de l'université hébraïque de Jérusalem, pour apporter de l’aide et / ou des conseils en cas de problème.

Références d'utilisateurs institutionnels

Trinity est aujourd’hui largement utilisé dans le domaine de l’assemblage de-novo de données RNAseq.

Environnement utilisateur
Documentation utilisateur
Divers (astuces, actualités, sécurité)
Fiche logiciel validé
  • Création ou MAJ importante : 30/09/13
  • Correction mineure : 30/09/13
Mots-clés

InterProScan : identification dans un jeu de séquences des signatures protéiques d'intérêt

Description
Fonctionnalités générales

InterProScan est un environnement logiciel qui permet d'identifier dans un jeu de séquences des signatures protéiques d'intérêt en scannant des banques de motifs et signatures de référence et en utilisant des algorithmes détectant des biais de composition (SEG, TMHMM, Signal-P).

En utilisant plusieurs méthodes de reconnaissance, il effectue des recherches de signatures protéiques dans 11 bases de données de motifs ou domaines protéiques telles que PROSITE, PRINTS, Pfam, ProDom, SMART ou TIGRFAMMs. Chacune de ces bases de références utilisent des méthodes différentes d'identification (HMM, profils, etc.) et de manière plus ou moins automatique.

Usage

Un site WEB est mis à la disposition de la communauté par l'EBI, mais cette fiche se penchera sur le retour d'expérience lié au déploiement d'un environnement sur une plate-forme, permettant de traiter de larges jeux de données (ex : 100 000 séquences).

InterProScan s'utilise aussi via un script frontal qui se charge de lancer les différentes comparaisons. Ces traitements peuvent s’exécuter sur un cluster. La parallélisation des traitements s'effectuera alors en deux étapes

  • tout d'abord par le découpage en sous jeu de données ("chunk") des séquences dont la taille sera définie par l'administrateur,
  • et par l’exécution en parallèle des différentes recherches  (une quinzaine dont par exemple hmmer sur la banque tigrfams) pour chaque sous jeu de données.

InterProScan est capable de traiter des séquences nucléiques et protéiques au format FASTA (multiple). Pour les séquences nucléiques, une traduction selon les 6 phases de lecture est automatiquement effectuée.

Exemple de ligne de commande

iprscan -cli -i mydataset.fasta -email myemail@mydomain -seqtype n -iprlookup -goterms -o mydataset.out -verbose

Fichiers résultats

Interproscan génère des fichiers de sorties pour chaque traitement sur les différents chunks. Un post traitement permet de filtrer et corriger certains hits. Au final, un fichier merged.raw est généré pour chaque chunk. Enfin, Interproscan concatène l'ensemble de ces résultats en un seul fichier. Il existe un fichier résultat par comparaison lancée, ainsi qu'un fichier de synthèse. Un jeu de test permet aussi de vérifier que l'outil fonctionne correctement en local.

Autres fonctionnalités

Le fichier RAW peut etre converti en divers formats (xml|ebixml|raw|html|txt|gff3) via le script converter.pl fournit dans la distribution.

Interopérabilité
  • Connexion aux environnements de calcul de type SGE 6.x, LSF et PBS.

  • Utilisation de la suite BioMaj pour mettre à jour automatiquement les banques de données associées.

  • Le site de l'EBI propose des accès Web Services (SOAP & REST).

Contexte d'utilisation dans mon laboratoire/service

InterProScan est principalement utilisé pour des traitements automatiques sur de gros volumes de séquences d'intérêt.
Les résultats donnent une information factuelle (présence/absence de domaines/sites) permettant l'annotation de protéomes. Le couplage avec la GeneOntologie ainsi que la structuration en arbre des domaines/familles InterPro permet de générer des annotation fonctionnelles synthétiques.

Limitations, difficultés, fonctionnalités importantes non couvertes
  • L'installation nécessite de disposer d'un environnement de type plate-forme.

  • La mise à jour des banques implique également une indexation à chaque miuse à jour

  • La version 5 devrait lever certains verrous en rendant l'application plus modulaire et intégrable à des pipelines et traitement annexes.

Environnement du logiciel
Plates-formes

Environnement Linux disposant du langage PERL.

Logiciels connexes
Environnement de développement
Type de structure associée au développement

Développement opéré par l'EBI.

Eléments de pérennité
  • Logiciel très utilisé par la communauté.

  • Correctifs et évolutions fréquents.

  • Banques de données mises à jour fréquemment.

Références d'utilisateurs institutionnels
Environnement utilisateur
Liste de diffusion ou de discussion, support et forums
Documentation utilisateur
Mots-clés

2ème école de bioinformatique "Initiation au traitement des données de génomique obtenues par séquençage à haut débit"

Une deuxième école de bioinformatique "Initiation au traitement des données de génomique obtenues par séquençage à haut débit" est prévue du 17 au 22 novembre 2013 à la Station Biologique de Roscoff.

Les modalités d'inscriptions et autres informations utiles sont données ici.

Le programme de l'école, organisée par l'ITMO Génétique, génomique et bioinformatique (avec le support de 8 plate-formes de bioinformatique), est donné dans ce document.

Les pré-inscriptions se font ici (nombre de places limité à 40).

Fiche dév Ens Sup - Recherche
  • Création ou MAJ importante : 24/04/13
  • Correction mineure : 03/06/13
Mots-clés

T-lex : annotation d'éléments transposables à partir de données de séquençage (NGS)

Ce logiciel a été développé (ou est en cours de développement) dans la communauté de l'Enseignement Supérieur et de la Recherche. Son état peut être variable (cf champs ci-dessous) donc sans garantie de bon fonctionnement.
  • Site web
  • Système : UNIX-like
  • Version actuelle : Version 2 - Juillet 2012
  • Licence(s) : GPL - la licence
  • Etat : diffusé, stable
  • Support : maintenu, développement en cours
  • Concepteur(s) : Anna-Sophie Fiston-Lavier, PhD
  • Contact concepteur(s) : afiston@stanford.edu
  • Laboratoire(s), service(s)... : Labo à l'étranger, School of Medicine of the Stanford University - equipe de D.Petrov

 

Fonctionnalités générales du logiciel

T-lex (version 2) est un paquetage pour l'annotation des éléments transposables (ET) via l'utilisation de données de séquençage nouvelle génération (NGS). Il comprend deux pipelines:

  • l'un pour détecter la présence/absence des ET annotés dans une séquence de référence ("présence/absence" pipeline).
  • l'autre pour détecter et annoter les nouveaux ET - absence d'une séquence de référence ("de novo" pipeline).

Les deux pipelines de T-lex recherchent les lectures ("reads") et paires de lectures ("paired-ends") partiellement alignées ("mappées") et "matchant" avec la séquence d'un ET.

T-lex2 permet également l'annotation des TSD ("Target Site Duplication"), trace le mécanisme de transposition et ainsi l’optimisation des annotations des insertions d’ET. Pour chaque ET annoté, T-lex2 détecte sa présence et/ou son absence dans un génome via l'analyse de données de re-séquençage. T-lex2 a aussi la capacité d'estimer la fréquence des ETs dans des populations pour plusieurs ET via l'utilisation de données de re-séquençage individuelles ou des données regroupées.

Pour plus d'information voir le doc: http://petrov.stanford.edu/cgi-bin/Tlex.html

Contexte d’utilisation du logiciel

Ce paquetage est utilisé dans un contexte de recherches menées sur la dynamique et l'impact des répétitions sur l'adaptation des génomes.
T-lex peut s'utiliser pour:

  • estimer le contenu en éléments transposables d'un génome non-assemblé.
  • annoter les éléments transposables absents de la séquence de référence mais présents dans un génome de la même espèce.
  • ré-annoter les éléments transposables déjà annotés dans la séquence de référence.
  • annoter, pour chaque élément transposable préalablement annoté, les TSD ("Target Site Duplication"), trace du mécanisme de transposition.
  • détecter la présence et/ou l'absence d'un élément transposable annoté dans un ou plusieurs génome(s).
  • estimer la fréquence d'un élément transposable dans une population en combinant les résultats de détection dans plusieurs génomes ou en utilisant des "pool" de données de séquençage d'une même population.
Publications liées au logiciel

Fiston-Lavier AS, Carrigan M, Petrov DA and Gonzalez J. T-LEX: A program for fast and accurate assessment of transposable element presence using next-generation sequencing data. Nuc. Acids. Res. 2011 Mar 1;39(6):e36. Epub 2010 Dec 21

T-lex a été cité dans:

Population genomics of transposable elements in Drosophila melanogaster
DA Petrov, AS Fiston-Lavier, M Lipatov… - Molecular biology and …, 2011 - SMBE

Evolution of Genome Content: Population Dynamics of Transposable Elements in Flies and Humans
J Gonzalez… - Methods in molecular biology (Clifton, NJ), 2012 - Springer

Sequencing of Pooled DNA Samples (Pool-Seq) Uncovers Complex Dynamics of Transposable Element Insertions in Drosophila melanogaster. R Kofler, AJ Betancourt… - PLoS Genetics, 2012 - dx.plos.org

Bioinformatics and genomic analysis of transposable elements in eukaryotic genomes.
M Janicki, R Rooke… - Chromosome Research, 2011 - Springer

Transposable Elements and Their Identification.
W Makałowski, A Pande, V Gotea… - Methods in molecular …, 2012 - Springer

Whole Genome Resequencing Reveals Natural Target Site Preferences of Transposable Elements in Drosophila melanogaster.
RS Linheiro… - PloS one, 2012 - dx.plos.org

Transposable Elements: From DNA Parasites to Architects of Metazoan Evolution.
O Piskurek… - Genes, 2012

Fiche dév Ens Sup - Recherche
  • Création ou MAJ importante : 23/04/13
  • Correction mineure : 23/04/13
Mots-clés

massXpert : simulation de données de biochimie et de spectrométrie de masse

Ce logiciel a été développé (ou est en cours de développement) dans la communauté de l'Enseignement Supérieur et de la Recherche. Son état peut être variable (cf champs ci-dessous) donc sans garantie de bon fonctionnement.
  • Site web
  • Système : UNIX-like, Windows, MacOS X
  • Version actuelle : 3.4.0 - 25 12 2012
  • Licence(s) : GPL
  • Etat : diffusé, stable, utilisé en interne, en développement
  • Support : maintenu, développement en cours
  • Concepteur(s) : Filippo RUSCONI
  • Contact concepteur(s) : massxpert-maintainer@massxpert.org
  • Laboratoire(s), service(s)... : Régulations et dynamique des génomes

 

Fonctionnalités générales du logiciel

Le logiciel massXpert permet la modélisation de chimies de polymère afin de s'en servir ensuite pour simuler des réactions de biochimie sur des polymères linéaires ainsi que de spectrométrie de masse.

Contexte d’utilisation du logiciel

Le logiciel massXpert est utilisé dans le cadre de la préparation d'expériences de chimie des biopolymères habituellement suivies d'expériences de spectrométrie de masse.

Publications liées au logiciel

Rusconi, F. (2009) massXpert 2 : a cross-platform software environment for polymer chemistry modelling and simulation/analysis of mass spectrometric data, Bioinformatics, 2009, 25:2741-2742, doi:10.1093/bioinformatics/btp504. http://bioinformatics.oxfordjournals.org/content/2...

Rusconi, F Manuel de spectrométrie de masse à l'usage des biochimistes (02/2011) - Editions tec et Doc/LAVOISIER - ISBN 2743013419

Manuel d'utilisation (format pdf) : http://massxpert.org/wiki/Main/UserManual

Fiche dév Ens Sup - Recherche
  • Création ou MAJ importante : 26/03/13
  • Correction mineure : 17/04/13
Mots-clés

SVDetect : detection de variants structuraux à partir de lectures haut-débit appariées

Ce logiciel a été développé (ou est en cours de développement) dans la communauté de l'Enseignement Supérieur et de la Recherche. Son état peut être variable (cf champs ci-dessous) donc sans garantie de bon fonctionnement.
  • Site web
  • Système : UNIX-like
  • Version actuelle : 0.8 - 05/12/2011
  • Licence(s) : GPL
  • Etat : diffusé, stable
  • Support : maintenu, sans développement en cours
  • Concepteur(s) : Bruno Zeitouni, Valentina Boeva
  • Contact concepteur(s) : svdetect@curie.fr
  • Laboratoire(s), service(s)... : INSERM-U900

 

Fonctionnalités générales du logiciel

A partir de séquences pairées provenant du séquençage haut-débit et ayant préalablement été alignées contre un génome de référence, SVDetect permet de mettre en évidence des clusters de lectures pairées anormales (ordre, orientation des lectures ou distance entre les lectures) et d'en prédire une signature de variants structuraux tels que des insertions, délétions, inversions, duplications ou translocation intra- et inter-chromosomiques. Il permet ensuite de comparer les résultats avec un contrôle et de détecter les anomalies spécifiques d'un échantillon (Tumeur vs ADN contrôle).
Les réarrangements chromosomiques ainsi détectés peuvent ensuite être visualisés graphiquement via l'outil Circos ou sur le visualiseur de génome 'UCSC'.
SVDetect est compatible avec tout type de lectures appariées ("paired-end" ou "mate-pair") , de technologie de séquençage haut-débit (Illumina, SOLiD, PGM, ...) et de génome.
SVDetect permet aussi si nécessaire de dresser des profils de couverture et de pointer plus spécifiquement sur les pertes ou gains de portions génomiques à partir de l'information du nombre de copies.
Il est disponible sous la forme d'un script PERL et prend en charge le format BAM en entrée.
SVDetect est également disponible pour le toolshed de Galaxy.

Contexte d’utilisation du logiciel

SVDetect est dédié à l'identification de tout type de réarrangements chromosomiques. Il a été testé préférentiellement sur des expériences de re-séquençage de génome entier à partir de cellules cancéreuses, riches en remaniements.
Certains utilisent SVDetect pour détecter des gènes de fusion à partir d'expériences RNA-seq.

Publications liées au logiciel
  • SVDetect: a tool to identify genomic structural variations from paired-end and mate-pair sequencing data
    Bruno Zeitouni; Valentina Boeva; Isabelle Janoueix-Lerosey; Sophie Loeillet; Patricia Legoix-ne; Alain Nicolas; Olivier Delattre; Emmanuel Barillot, Bioinformatics 2010 26: 1895-1896, http://www.hal.inserm.fr/inserm-00508372
Fiche logiciel validé
  • Création ou MAJ importante : 18/03/13
  • Correction mineure : 10/06/13
  • Rédacteur de la fiche : Anne Cheylus - L2C2 (CNRS, Université Claude Bernard, Lyon 1)
  • Relecteur(s) : Milan Bouchet-Valat (Laboratoire de sociologie quantitative (CREST-LSQ))
    Delphine Grancher (Laboratoire de Géographie Physique)
  • Contributions importantes : Milan Bouchet-Valat
  • Responsable thématique : Pascal Joly (LJLL)
Mots-clés
Pour aller plus loin

R Commander : interface graphique pour réaliser des traitements statistiques avec le logiciel R

Description
Fonctionnalités générales

R-commander est une interface graphique pour le logiciel R. Elle facilite l'apprentissage de ce langage de programmation en offrant à l'utilisateur la possibilité de réaliser l'importation de données, un certain nombre de traitements statistiques élémentaires ou plus avancés, l'export des résultats de manière interactive tout en indiquant les commandes R correspondantes. Des greffons peuvent être ajoutés pour réaliser d'autres traitements statistiques.

Autres fonctionnalités
  • Importation de données :
    • depuis un fichier texte ; par copier-coller ; par URL (Windows, Mac, Linux)
    • depuis des fichiers Excel, Access, dBase, SPSS, SAS, Minitab, STATA (Windows)
    • depuis un paquet R
  • Manipulation des données (sélection, réorganisation, édition directe, recodage...)
  • Traitements statistiques :
    • statistiques descriptives : moyenne, médiane, tableau de contingence
    • tests paramétriques (tests t, ANOVA) et non paramétriques (Wilcoxon, Kruskal et Wallis)
    • analyse de données : analyse en composantes principales, analyse factorielle, analyse discriminante, classification
    • modélisation : régression linéaire, régression logistique simple, multinomiale et ordinale, modèles linéaires généralisés
  • Représentations graphiques :
    • diagramme en barres, en points, camembert, boîte à moustaches, histogramme, comparaison de quantiles...
    • diagnostics de modèles
    • les graphiques peuvent être copiés ou exportés dans un format vectoriel pour une meilleure qualité d'impression
  • Probabilités, courbes de répartition et données aléatoires à partir de nombreuses distributions.
  • Une trentaine de greffons disponibles fournissent d'autres possibilités d'analyses : analyse de durée/survie, analyse de données « à la française », analyse textuelle...
Interopérabilité

Importation depuis plusieurs formats courants ; exportation au format CSV ou TSV.

Environnement du logiciel
Logiciels connexes
  • R
  • FactoMineR, un paquet pour l'analyse de données sous R possédant un greffon pour R commander
Autres logiciels aux fonctionnalités équivalentes
  • Statistica (propriétaire)
  • SPSS (propriétaire)
  • STATA (propriétaire)
  • SAS (propriétaire)
  • S-Plus (propriétaire)
Environnement de développement
Type de structure associée au développement

L'auteur principal travaille au département de sociologie de l'université McMaster d'Hamilton, Ontario au Canada.

Eléments de pérennité

Le R commander a été inclus dans le CRAN, le répertoire commun des bibliothèques de R et plus de 20 développeurs ont contribué à son amélioration.

Références d'utilisateurs institutionnels

Une recherche de pages web contenant le mot-clé « rcmdr » et limitée au domaine cnrs.fr renvoie plus de 1000 références, essentiellement vers des documents de formation.

Environnement utilisateur
Divers (astuces, actualités, sécurité)

Pour installer ce logiciel sur un ordinateur connecté à Internet, lancez la commande

> install.packages("Rcmdr")

dans R, choisissez le miroir CRAN qui vous semble le plus proche de chez vous. Utilisez ensuite la commande

> library(Rcmdr)

pour lancer le R commander. La première fois, des installations complémentaires seront effectuées.

Contributions

Contacter directement l'auteur par courriel.

Fiche logiciel validé
  • Création ou MAJ importante : 17/12/12
  • Correction mineure : 13/11/13
Mots-clés

Ensembl API : interface de programmation pour l'accès aux bases de donnees Ensembl

Description
Fonctionnalités générales

Bibliothèques Perl permettant d'accéder facilement :

- aux données d'annotations avec le module Core : séquences, gènes, transcrits aletrnatifs, exons, introns, Gene Ontology, Symbol, Ensembl ID, FBgn, ...

- aux données comparatives inter-espèces avec le module Compara : alignements entre génomes, synténie, prédictions paralogues et orthologues, familles de protéines , ...

- aux données d'évolution avec le module Variation : SNP, mutations somatiques, variants de structures, ...

- aux données de régulations transcriptionnelles avec le module Funcgen : ouverture de la chromatine, facteurs de transcription, modifications de l'histone.

Autres fonctionnalités

Ces composants permettent un lien entre un programme et les bases de données Ensembl. Il est ainsi possible de requêter directement la base de données de l'EBI ou n'importe quel miroir tout comme une instance locale.

Les fichiers de configuration des API permettent de spécifier pour chaque espèce quel serveur de base de données utiliser. Pour un usage local il n'est donc pas nécessaire d'installer la totalité des bases de données Ensembl, mais uniquement celles d'intérêt.

Les API proposent des objets de haut niveau dotés d'une gestion efficace et rapide aux données et permettent de s'abstraire du schéma relationnel sous-jacent.

L'API fournit également des méthodes de modifications des données ... dans le cadre d'une instance locale, il va de soi.

Interopérabilité

Ces bibliothèques Perl ont comme sources de données d'annotation celles proposées par l'EBI.

Contexte d'utilisation dans mon laboratoire/service

Les API EnsEMBL sont utilisées pour annoter les données produites, et permettre les comparaisons entre espèces.

Limitations, difficultés, fonctionnalités importantes non couvertes

Une maîtrise du langage Perl est nécessaire.

Pour un usage intensif, l'accès direct aux bases de données d'EnsEMBL est déconseillé : lenteur du réseau, risque d'être black-listé dans le cas d'un usage vraiment trop important.

Il est primordial de garder une adéquation entre la version des API et celles des bases de données, au risque de générer des résultats partiels ou incohérents.

Environnement du logiciel
Plates-formes

Linux, Mac OS, Windows (Active Perl)

Logiciels connexes

BioMart DAS

Autres logiciels aux fonctionnalités équivalentes

Le plus connu des "Genome Browsers" outre-Atlantique est celui de l'UCSC. Ce dernier offre également des API pour consulter de façon automatique ses données.

Environnement de développement
Type de structure associée au développement
Eléments de pérennité

Existe depuis 1999, le projet comporte 7 équipes représentant entre 40 et 50 personnes.
Le projet met à disposition plusieurs versions par an.

Références d'utilisateurs institutionnels
Environnement utilisateur
Liste de diffusion ou de discussion, support et forums
Documentation utilisateur
Divers (astuces, actualités, sécurité)
Syndiquer le contenu