La Data Science en question

J’ai souvent l’occasion de définir la notion de Data Science, et c’est le moment pour moi de promouvoir cette activité qui connaît actuellement un véritable engouement et une effervescence extraordinaire auprès d’un large public. Le premier réflexe en général, est d’aller voir la page wikipédia (il y a 20 ans ça aurait été celle de l’encyclopédie Larousse :p) qui propose la définition suivante :

Data science is an interdisciplinary field about processes and systems to extract knowledge or insights from data in various forms, either structured or unstructured, which is a continuation of some of the data analysis fields such as statistics, machine learning, data mining, and predictive analytics, similar to Knowledge Discovery in Databases (KDD).

wikipédia

Cette description est suffisamment vague pour rester satisfaisante, et de toute façon, lorsque l’on nous demande de décrire ce qu’est la Data Science, on attend rarement une définition formelle mais plutôt de savoir à quoi elle sert, ce qu’elle apporte dans notre monde.

Je vais donc essayer de répondre à cette épineuse question qui paraît si simple de prime à bord. Il ne s’agit bien évidemment pas pour moi d’apposer une vérité universelle (chacun pourra avoir son avis sur la question et je serais d’ailleurs ravi de pouvoir en discuter) mais plutôt de proposer une vision trop rarement exposée à mon goût !

A quoi sert la Data Science ? La première réponse que l’on peut apporter à cette question est triviale : à fournir des outils d’aide à la prise de décision.

La Data Science fournit des outils d’aide à la prise de décision

Des décisions, on en prend à chaque fois que l’on se pose une question, et des questions on s’en pose beaucoup et souvent. Est-ce que je prends un pull pour sortir aujourd’hui ? (# prévision) Quel film vais-je regarder ce soir ? (# recommandation) Cette nouvelle montre connectée à l’air génial, qu’est-ce que les autres en pensent ? (# text mining)

Évidemment, les entreprises s’en posent bien davantage encore, avec des enjeux associés très importants. D’ailleurs, elles n’ont pas attendu la Data Science pour essayer d’y répondre du mieux possible. C’est sur ce créneau que les experts se positionnent. Des experts on en connait tous et dans tous les domaines. Grâce à leurs connaissances, leur expérience, leur vision, ils synthétisent et orientent les décisions des entreprises.

Ils font autorité. Autorité qu’ils ont gagnée, acquise au fil des ans, à force de travail et de communication.

Combien d’entreprises se disent aujourd’hui « data-driven » ?

Et bien la Data Science joue dans la même cour, et challenge de plus en plus ces figures emblématiques. Combien d’entreprises se disent aujourd’hui « data-driven » ? Combien de fois j’ai entendu des personnes reprendre à leur compte la formule de Saint Thomas d’Aquin, « Je ne vois que ce que je crois » en pointant des chiffres ? Le monde change, et les décideurs se basent de plus en plus sur des données chiffrées pour piloter leurs activités et guider leurs choix.

Attention, la différence entre ces experts et la Data Science n’est pas, comme on pourrait le penser au premier abord, l’objectivité de la deuxième par rapport aux premiers. Ce n’est pas le cas (je développe ce point en fin d’article). Non, la dissemblance réside dans le fait que la Data Science produit une réponse chiffrée précise, vérifiable et recouvrable à partir des mêmes données et méthodes utilisées.

la Data Science produit une réponse chiffrée précise, vérifiable et recouvrable

Est-ce que la Data Science propose la meilleure réponse possible ? Certainement pas, et j’aimerais adapter la formule de Churchill : La Data Science « est un mauvais système, mais elle est le moins mauvais de tous les systèmes ». Cela ne veut pas dire que l’on ne doit pas prendre de recul sur son utilisation.

Ces dernières années, l’usage de la Data Science a considérablement évolué et nous sommes passés d’un outil d’aide à la prise de décision à un outil de prise de décisions. Cette mutation s’explique, en grande partie, par le fait que les décideurs transfèrent volontairement leur responsabilité dans la prise de décisions à des techniques statistiques, à des algorithmes. Ainsi, la faute n’incombe plus à des individus, mais à des processus automatisés, qui sous couvert de « Science », justifient les prises de décisions.

Les algorithmes se trompent et se tromperont toujours

Il est vrai que la data science est une science (c’est important d’enfoncer des portes ouvertes), au même titre que la physique ou l’histoire dans le sens où elle utilise une démarche rigoureuse qui utilise des observations objectives et vérifiables. Et tout comme la physique, il y a des partis pris, de la subjectivité dans la data science (l’erreur d’Einstein est un des plus beaux exemples de subjectivité en physique). Laisser le libre arbitre aux algorithmes en pensant abandonner ainsi ses responsabilités n’est qu’une illusion. Les algorithmes se trompent et se tromperont toujours, et c’est pour cela qu’il est nécessaire de faire appel à des personnes qualifiées qui savent maitriser ces algorithmes, qui en connaissent tous les tenant et les aboutissants.

Qui a dit « Data Scientist » ? Il y aurait aussi bien des choses à dire sur ce métier …

Article réalisé par Adrien BOUHOT :

Consultant Data scientist orienté digital, je m’intéresse à tout ce qui touche de près ou de loin à la data et à son utilisation. Issu d’une formation Statistique, j’ai évolué au fil des expériences vers les écosystèmes Big Data qui représentent un nouvel eldorado où de nombreuses choses restent à découvrir et à construire !
Adepte de la conversation autour des systèmes d’informations, de leur exploitation, de la Statistique et de son usage ainsi que de la sociologie dans son ensemble, n’hésitez pas à échanger avec moi !

Logo_Linkedin_petit ou directement : adrien.bouhot@gmail.com

3 thoughts on “La Data Science en question

  • 6 octobre 2016 at 18 h 19 min
    Permalink

    Merci pour cet article. Je vis en Haiti. J’aimerais montrer a des entreprises qui n’ont pas de gros chiffres d’affaires l’interet d’utiliser le Data Science pour prendre des decisions. Quels conseils pourriez-vous me donner?

    Reply
    • 6 octobre 2016 at 19 h 25 min
      Permalink

      Il est vrai qu’en général, les petites structures délaissent le côté Data Science parce qu’elles pensent que cela est réservé aux grandes entreprises. Et effectivement, à une certaine époque, c’était le cas, mais avec l’émergence du cloud et l’augmentation du nombre de personnes formées sur ces sujets, la data science devient accessible à tous.
      Par exemple, si vous prenez un magasin vendant des biens périssables (ex : un fleuriste), il est intéressant de prévoir la demande pour pouvoir anticiper ces achats et ainsi réduire son nombre d’invendus. Cela peut aussi mettre en place une politique tarifaire plus adaptée ou une meilleure gestion des ressources humaines (embaucher un contractuel au bon moment).
      Avec les données open data, on peut aussi en apprendre beaucoup. Par exemple où ouvrir ma nouvelle boutique, combien est prêt à payer tel ou tel client, etc.
      Il y a mille et une façon de mettre de la data science dans l’entreprise, qu’elle soit grande ou petite. En revanche, cela veut dire qu’il faut mettre en place une vraie politique data, pour pouvoir répondre à de nombreux cas d’usages.
      Pour finir, le coût sera essentiellement humain dans ce type de projets. De nombreux outils sont open source. Je pense à R ou python côté statistique, D3.js ou shiny côté visualisation, PostgreSQL pour une base de données et il y en a beaucoup d’autres.
      Ce qui est important, c’est de conserver une vision business et de s’affranchir de la technique. La technique est rarement un problème !

      Reply
      • 6 octobre 2016 at 20 h 33 min
        Permalink

        Merci pour votre reponse rapide. J’avais pense aux clouds en effet. J’etais un peu reticent par rapport aux questionnements lies a la securite que pouvaient avoir des clients qui ne sont pas bons connaisseurs. Mais je vais essayer de creuser un peu avec toutes vos idees avec mon equipe pour preparer un concept en ce sens!!! R et PostgreSQL me sont tres familiers mais D3.js ou shiny pour la visualisation. Je verrai tout ca avec mon equipe. Merci encore et bon travail.

        Reply