Format fasta : représentation de séquences nucléiques ou protéiques (biologie)

Fiche ressource Article, événement, site web...
  • Création ou MAJ importante : 09/07/10
  • Correction mineure : 09/10/13
Mots-clés

Format fasta : représentation de séquences nucléiques ou protéiques (biologie)

Version : pas de version

Extension : .fa, .fasta, .fsa

Type de document : Fichier texte tabulé

Document de standardisation :
Page descriptive sur le site de NCBI
Page descriptive sur le site de HUPO
Page descriptive sur le site de Wikipedia

Description courte :
Format qui permet de représenter un ou plusieurs séquences (nucléiques ou protéiques). Une ligne qui commence par le symbol '>' caractérise le début d'une nouvelle séquence. Le symbol '>' est suivi d'un identifiant de séquence et de commentaires éventuels. Les lignes suivantes constituent la séquence (jusqu'à ce qu'une nouvelle ligne commence par '>' ou la fin de fichier). Exemple :

>FBtr0302953 type=mRNA; loc=2R; name=CG42703-RA;  
TAACCCATAATGTCGAATATACTTGCTGCCAAACTCGACTGCCAATGCGC
CGGAAAAAACAGTCCCATGGATTCGGTGATAGTGCCGATTACCCAGGAAC

Avantages :

  • Est un des standards les plus utilisés en bioinformatique.
  • La plupart des logiciels reconnaissent ce format
  • Ce format peut contenir plus ou moins d'informations (en les ajoutant sur la ligne commencant par '>').

Inconvénients :
Format minimaliste (mais c'est également sa force!)

Logiciels de traitement les plus connus :

Format connexe :