Le Big Data tout le monde en parle, mais pourquoi ?

Pourquoi les données font-elles le buzz en ce moment ?

Nous sommes dans un monde où les données sont omniprésentes, alimentées en flux continus par notamment les interactions humaines (réseaux sociaux, e-mails, E-commerce, partage de vidéos, transactions commerciales, etc.) mais aussi les objets connectés (téléphones portables, GPS, etc.)

Ces flux continus de données contiennent, entre autres, de l’information sur des personnes morales et/ou physiques.

Illu_Pres_Big_Data_Flux

De nombreuses entreprises souhaitent pouvoir les stocker et les analyser, pour accroitre la connaissance de leur écosystème, et ainsi prendre les meilleures décisions possibles pour faire prospérer leurs activités.

Pourquoi parle-t-on de nouvelles technologies Big Data ?

Cette course à l’information pousse les systèmes décisionnels (systèmes permettant le stockage et l’analyse des données) déjà mis en place dans leurs retranchements :

Illu_Pres_Big_Data_prix

  • Les systèmes de stockage classiques n’ont pas été conçus pour stocker et manipuler des téraoctets / pétaoctets de données. On peut accroitre leur puissance mais le prix d’amélioration est exponentiel (plus on rajoute de gigaoctet de stockage plus le prix du gigaoctet augmente). Il y a donc une limite économique.

Illu_Pres_Big_Data_variete

  • Les systèmes n’ont pas été conçus pour stocker et manipuler facilement les données non-structurées (images, vidéos), ni pour permettre les traitements en temps réel.

Technologiquement parlant, ces limites s’expliquent notamment par le fait que ces systèmes n’ont, de manière générale, qu’un seul serveur physique (un gros ordinateur) qui doit gérer toute la charge et impose un schéma de stockage non-flexible.

De grosses sociétés spécialisées dans le domaine du décisionnel telles que Google, Yahoo, Teradata, IBM, Twitter, Facebook ou encore Oracle, ont mis en place des solutions technologiques propriétaires et/ou open source s’appuyant non-plus sur un seul serveur mais sur plusieurs (c’est ce que l’on va appeler les technologies distribuées se basant sur un cluster/groupe de serveurs).

Ces nouvelles technologies distribuées s’avèrent être moins couteuses que les systèmes classiques lorsque la quantité de données augmente, en effet il est alors moins cher de rajouter un nouveau serveur dans un cluster que d’améliorer celui en place.

Illu_Pres_Big_Data_evol_cout


Ces technologies permettent également l’analyse des Big Data en parallélisant les calculs sur les différents servers d’un cluster (lors d’un même traitement plusieurs serveurs vont travailler en même temps, et non plus un seul).
Mais ces nouvelles technologies et problématiques vont pousser les sociétés à revoir leurs approches méthodologiques et technologiques.

Pour résumer ?

Illu_Pres_Big_Data_definition

Nous espérons que cet article, bien que très « macro », vous as permis de mettre une définition sur le mot « Big Data ».
Au cours des prochains articles qui vont suivre nous aborderons plus en détails les technologies et méthodes mises en place pour répondre à ces problématiques dites « de Big data ».

Article écrit par Anne-Sophie LAUGIER et Louis-Baptiste FRANCE

2 thoughts on “Le Big Data tout le monde en parle, mais pourquoi ?

  • 27 juin 2017 at 16 h 12 min
    Permalink

    C’est très clair :)

    Reply
    • 29 juin 2017 at 7 h 56 min
      Permalink

      Bonjour Lise,

      Merci !! :)

      Reply