Format fastq : format pour représenter les séquences et leurs scores de qualité

Fiche ressource Article, événement, site web...
  • Création ou MAJ importante : 03/11/10
  • Correction mineure : 09/10/13
Mots-clés

Format fastq : format pour représenter les séquences et leurs scores de qualité

Version : pas de version

Extension : .fq, .fastq, _sequence.txt (Illumina)

Type de document : Fichier texte

Document de standardisation :

Un article (dans N.A.R.) décrivant le format
Page descriptive sur le site de Wikipedia
Description sur le site MAQ

Description courte :
Format qui permet de représenter un ou plusieurs séquences avec leurs scores de qualités par base. Une séquence est représentée par 4 lignes:
La première ligne commence par le symbol '@' suivi d'un identifiant de séquence.
La seconde ligne correspond à la séquence
La troisième ligne commence par '+' suivi d'éventuelles autres infos
La quatrième ligne correspond à la séquence qualité de la 2e ligne.
Exemple :

@HWI-QMN273:4:1:2:779#0/1
ANCAAAATCTGCATTACCTCCTCGGCTGGGACAACTTTATTC
+HWI-QMN273:4:1:2:779#0/1
\D[aaaab_aaaabba__a^Za^aaZa`]a__a_Z_aaaa`\ 

Avantages :

  • Est un format simple pour partager des séquences et le score de qualité
  • Beaucoup de logiciels reconnaissent et exploitent ce format
  • Ce format peut contenir plus ou moins d'informations (en les ajoutant sur la ligne commencant par '@').

Inconvénients :

  • Il n'y a pas un standard rigoureux et Illumina en a fait des variants
  • Le score de qualité n'est pas encodé de la même façon selon l'éditeur du fichier
  • Le fichier est volumineux

Logiciels de traitement les plus connus :

Format connexe :