Trinity

Fiche logiciel validé
  • Création ou MAJ importante : 09/10/13
  • Correction mineure : 09/10/13
Mots-clés

Trinity : assemblage de-novo de séquences RNAseq

Description
Fonctionnalités générales

Trinity est un programme pour réaliser l’assemblage de-novo de données NGS de type RNAseq.

Trinity regroupe 3 modules indépendants (Inchworm, Chrysalis et Butterfly) qui sont utilisés séquentiellement pour le traitement de données de type RNAseq. Trinity utilise une approche basée sur des graphes de 'de Bruijn'. Chaque graphe individuel est représentatif de la complexité transcriptionnelle pour un locus ou gène donné. Le traitement de chaque graphe permet d’extraire les différentes isoformes d’épissage et de séparer les transcrits provenant de gènes paralogues. La séquence de traitement est la suivante :

  • Inchworm assemble les données RNAseq en séquences de transcrits, générant le plus souvent un transcrit majoritaire correspondant à l’isoforme dominante. Les portions spécifiques des transcrits d’épissages alternatifs sont également assemblées.
  • Chrysalis clusterise les contigs assemblés par Inchworm et construit un graphe de 'de Bruijn' pour chaque cluster. Ce graphe représente la complexité transcriptionnelle d’un gène donné (ou set de gènes qui partagent des séquences communes). Chrysalis répartit le jeu de lectures donné en entrée sur ces graphes disjoints.
  • Butterfly traite les graphes individuellement. Il réconcilie les données de graphes obtenues par Chrysalis avec les lectures (pairées et non pairées) correspondant à ces graphes afin de reconstruire une séquence linéaire pour chaque isoforme de transcrit ou gènes paralogues.

Usage :

Trinity est lancé en utilisant le script Trinity.pl qui se trouve dans le répertoire d’installation.

Trinity accepte des données de type « paired-end », « mate-pair » ou « single-end », orientés ou non orientés, bien que les performances soient meilleures sur des reads orientés.

Les données doivent être au format fastq ou fasta.

 

Exemples de ligne de commande :

Trinity.pl --seqType fq --JM 10G --left reads_1.fq --right reads_2.fq --CPU 6

L’assemblage Trinity peut également se faire par étape si nécessaire, en exécutant indépendamment Inchworm, Chrysalis et Butterfly avec des options spécifiques de Trinity.pl

 

Sorties de Trinity :

L’expérience montre que l’exécution de Trinity demande ~1/2 heure à 1 heure par million de paires de reads.

Après complétion, Trinity a créé un fichier de sortie Trinity.fasta dans le répertoire de sortie spécifié (trinity_out_dir par défaut) , contenant les différents transcrits assemblés.

 

Données test :

Trinity est distribué avec un jeu de données test « sample_data/test_Trinity_Assembly/ ».

Lancer le script shell « runMe.sh » exécutera le processus d’assemblage avec Trinity sur ces données.

Lancer le script shell « runMe.sh 1 » exécutera l’analyse postérieure de l’assemblage incluant l’alignement des lectures sur l’assemblage avec Bowtie ainsi que l’analyse d’abondance avec RSEM.

Autres fonctionnalités

Les analyses suivantes, en aval de l’assemblage, font partie de la suite Trinity :

  •  Alignement des lectures RNAseq sur les transcrits assemblés par Trinity pour visualiser dans IGV et estimer l’abondance utilisant RSEM.
  •  Utilisation de edgeR et Bioconductor pour l’analyse d’expression différentielle des transcrits.
  •  Extraction des régions potentiellement codantes pour des protéines à partir des transcrits.
Interopérabilité
  • En entrée : fasta, fastq, colorspace fasta, colorspace fastq
  • En sortie : fasta
Contexte d'utilisation dans mon laboratoire/service

Trinity est essentiellement utilisé pour l’assemblage de-novo de données RNAseq :

  • pour lesquelles il n’y a pas de génome disponible,
  • pour lesquelles le génome est fragmenté ou non annoté,
  • pour des applications où un assemblage de-novo est nécessaire (par exemple RNAseq d'individus mâles avec un génome de référence femelle...).
Limitations, difficultés, fonctionnalités importantes non couvertes
  • Pour l’assemblage avec référence (génome annoté), la suite Tophat/Cufflinks est préférable.
  • Trinity fonctionne avec Bowtie et non Bowtie 2.
  • Trinity est gourmand en mémoire vive (RAM).
Environnement du logiciel
Plates-formes

Linux, Mac, Windows

Logiciels connexes
  • Bowtie est un logiciel d’alignement de séquences NGS et est nécessaire pour l'alignement des lectures sur les assemblages et la quantification.
  • Visualisateurs d'alignement (tabletIGV ...).
Autres logiciels aux fonctionnalités équivalentes

SOAPdenovo-Trans (GPLv3), Oases (GPLv3), ABySS (freeware), CLC (propriétaire).

Environnement de développement
Eléments de pérennité

Fréquentes mises à jour, et équipe très réactive, du Broad Institute du MIT et de l'université hébraïque de Jérusalem, pour apporter de l’aide et / ou des conseils en cas de problème.

Références d'utilisateurs institutionnels

Trinity est aujourd’hui largement utilisé dans le domaine de l’assemblage de-novo de données RNAseq.

Environnement utilisateur
Documentation utilisateur
Divers (astuces, actualités, sécurité)