EMBOSS

Fiche logiciel validé
  • Création ou MAJ importante : 26/09/11
  • Correction mineure : 05/11/13
Mots-clés
Pour aller plus loin
  • Fiches logiciel PLUME connexes :

EMBOSS : suite logicielle pour les analyses bioinformatiques

Description
Fonctionnalités générales

EMBOSS (European Molecular Biology Open Software Suite) est une suite logicielle dédiée aux analyses bioinformatiques. Elle offre un ensemble d'outils d'analyse de séquences (protéiques ou nucléiques) permettant de réaliser un grand nombre de tâches bioinformatiques.
Elle est composée de d'un grand nombre d'applications (plusieurs centaines) offrant une couverture fonctionnelle relativement large avec aussi bien des utilitaires de conversion et de manipulation de séquences, que des outils d'alignements (locaux, globaux), en passant par des logiciels de prédiction.
Ces applications sont classées par domaines d'intérêts, ce qui facilite la recherche de l'outil ad hoc.

  • Une dizaine d'outils supplémentaires (Phylip, MEME, MIRA...) sont également intégrés mais en conservant leur propre licence (EMBASSY).
  • Le niveau d'intégration des outils est relativement poussé et on retrouve tous les avantages inhérents à ce type d'approche comme la normalisation des options et un format de documentation unique.
Autres fonctionnalités

L'environnement EMBOSS est orienté ligne de commandes. Il existe néanmoins des interfaces graphiques permettant une utilisation plus souple :

  • Jemboss (en java)
  • Web (wEMBOSS, EMBOSS Explorer ...)

Il existe des extensions permettant d'intégrer d'autres logiciels bioinformatiques (ex wrappers4EMBOSS qui fournit des wrappers pour BLAST, fastA, CLUSTAL, MUSCLE, PROSITE, InterPro, PhyML, ModelGenerator, CODEHOP et quelques services Web de l'EBI).

Interopérabilité

* EMBOSS a pour avantage de ne pas utiliser un format de donnée supplémentaire. Il reconnaît les principaux formats de données comme FASTA ou CLUSTALW, mais aussi tous les formats GCG (RSF, MSF...), et plus récemment FASTQ, SAM et BAM. Il permet également d'accéder à des données distantes telles que celles mises à disposition par SRS, Ensembl, ou même BioMart.
* Un langage de description (ACD) est utilisé pour décrire les commandes, leurs paramètres et les dépendances entre les options. Ce langage permet de déployer automatiquement les outils EMBOSS sous la forme de Web Services grâce au toolkit SoapLab.

Contexte d'utilisation dans mon laboratoire/service

La suite peut s'utiliser en fonction des besoins mais aussi du type d'utilisateurs :

  • L'utilisateur occasionnel peut utiliser les différentes interfaces graphiques (JEMBOSS, Emboss Explorer... : http://emboss.open-bio.org/html/use/ch07s03.html) pour bénéficier d'un accès convivial
  • Une utilisation en mode ligne de commande permet l'analyse de gros volumes de données, et un premier niveau d'automatisation
  • Une intégration des différentes commandes dans des pipelines ou scripts pour des analyses récurrentes est aussi possible
Limitations, difficultés, fonctionnalités importantes non couvertes
  • La configuration de certaines applications (notamment celles fournies dans les extensions) n'est pas triviale.
  • Peu d'outils couvrant les problématiques d'assemblage de séquences, mis à part eMIRA
  • Pas d'outil de calcul d'alignement multiple mais le programme ClustalW est néanmoins intégré à la suite grâce au wrapper EMMA
  • BLAST n'est pas intégré en natif
  • L'indexation des banques de données ne peut se faire que sur 5 champs définis au maximum ce qui rend EMBOSS moins puissant que des outils dédiés à la recherche dans les banques comme SRS
  • Des outils comme seqret sont moins performants que des appels BioPerl ce qui peut-être pénalisant dans une approche d'automatisation forte
  • Bien que le groupe de développement EMBOSS soit très dynamique, on ne trouve pas toujours les dernières méthodes ou algorithmes, par exemple pas d'outils d'alignement de génomes.
  • Il y a souvent un décalage entre les versions des outils du paquetage EMBASSY et leur dernière version non intégrée à EMBOSS
  • Les versions WEB proposées sont des contributions ce qui implique parfois un décalage supplémentaire avec la sortie des nouvelles versions.
Environnement du logiciel
Distributions dans lesquelles ce logiciel est intégré

On trouve des paquetages EMBOSS sous la forme de contributions pour la plupart des distributions Linux et un logiciel d'installation pour Windows incluant l'interface graphique jEmboss

Plates-formes

Linux au sens large, MacOSX, SGI Irix, SUN Solaris, Tru64 Unix, Cygwin, Windows

Logiciels connexes

La suite logicielle Staden

Autres logiciels aux fonctionnalités équivalentes

Mobyle (ex Pise) et Pipeline Pilot (descendant de GCG) sont deux exemples de produits proches, l'un public, l'autre commercial.
Des systèmes orientés Workflow tels que Galaxy commencent à regrouper une panoplie d'outils intéressante souvent plus adaptés aux nouveaux traitements (exemple NGS) et surtout donnent la possibilité de sauvegarder l'historique des traitements réalisés.

Environnement de développement
Type de structure associée au développement

Communauté de développeurs.

Eléments de pérennité

Depuis l'abandon du soutien du "Medical Research Council" en 2005 aux développements EMBOSS, une communauté s'est recréée autour de cette suite avec succès puisque de nouvelles versions sont apparues depuis cette date.
Le projet est sur sourceforge.
Depuis le 01/05/2009, EMBOSS est de nouveau financé, ce jusqu'à fin 2011.

Références d'utilisateurs institutionnels
  • L.I.P.M. (labo INRA-CNRS)
  • Plateforme bioinformatique MIGALE (INRA Jouy-en-Josas)
  • Plateforme bioinformatique GenOuest (INRIA Rennes)
  • Plateforme bioinformatique Toulouse
Environnement utilisateur