Big Data et Open Source

Fiche ressource Article, événement, site web...
  • Création ou MAJ importante : 09/07/12
  • Correction mineure : 09/07/12
Mots-clés

Big Data et Open Source

Le document Big Data & Open source : une convergence inévitable ?, placé sous licence CC BY-SA 3.0, explique la place du logiciel libre dans le domaine du Big Data.

Le Big Data designe, dans la définition empruntée à Wikipedia un grand ensemble de données dont la taille rend difficile la manipulation avec des outils classiques, c'est donc un domaine où recherche et innovation sont d'actualité.

Le document de S. Fermigier indique 4 enjeux technologiques majeurs :

  • Volume : les données dépassent les limites de la scalabilité verticale des outils classiques, nécessitant des solutions de stockage distribués et des outils de traitement parallèles.
  • Variété : les données sont hétérogènes ce qui rend leur intégration complexe et coûteuse.
  • Vélocité : les données doivent être traitées et analysées rapidement eu égard à la vitesse de leur capture.
  • Variabilité : le format et le sens des données peut varier au fil du temps.

Pour chacun de ces points, une liste des solutions open source est présentée, ce qui contient, entre autres, les logiciels Fiche Plume Lucene, Fiche Plume MySQL, Fiche Plume PostgreSQL et Fiche Plume R.

Dans le domaine scientifique, on voit émerger des sous-disciplines (“data science”) fondées sur le traitement massif de données scientifiques qui sont de plus en plus omniprésentes dans la génomique, l'astronomie, la physique des particules et astroparticules, la climatologie, etc. Le document mentionne la place du Big Data et les attentes de l'Agence Nationale de la Recherche (ANR) dans la recherche publique en France.

Référence. Les questions juridiques relatives aux données et aux bases de données sont traitées (par exemple) dans le Framabook : Option Libre. Du bon usage des licences libres de Benjamin Jean (chapîtres I-1.4 et II-1.2.5.2, et de façon plus synthétique dans la page 147).