La pensée Data-Driven est vouée à l’échec

datadriven1

La pensée Data-Driven, également appelée Data-Driven Marketing, se base sur une approche qui consiste à prendre des décisions stratégiques sur la base d’une analyse et d’une interprétation des données. Depuis quelques années maintenant, de nombreuses entreprises se revendiquent Data-Driven mais peu sont conscientes des risques liés à cette démarche (les articles prônant le remplacement du directeur marketing par une ia n’arrangent rien à l’affaire). Dans le même temps, de vives critiques sont émises contre des outils Data-Driven traditionnels, comme les sondages ou les statistiques.

Il existe deux raisons majeures qui font qu’utiliser une démarche exclusivement Data-Driven peut engendrer des conséquences désastreuses.

Nous maîtrisons la technique mais pas le concept

Ce qui est formidable avec un outil comme Excel, c’est son incroyable simplicité d’accès et son haut potentiel technique. En quelques clics, l’utilisateur peut calculer une moyenne ou tracer une droite de régression linéaire sur un graphique. Pour autant, même si techniquement calculer une moyenne consiste simplement à additionner et diviser des nombres, l’interpréter s’avère plus périlleux. Nous ne devrions en fait l’utiliser que dans des environnements où les données sont distribuées autour d’une valeur centrale et dépourvues de valeurs extrêmes. C’est ce que certains appellent le Médiocristan[1]. Par exemple, lorsque le présentateur du journal télévisé annonce qu’en moyenne nous passons plus de 2 heures par jour sur notre mobile, vous pouvez vous rendre compte qu’il maîtrise mal le concept de Moyenne : ce sont principalement les moins de 35 ans qui consomment du mobile, alors que les personnes de plus de 65 ans sont beaucoup moins utilisatrices de cette technologie. Parler de Moyenne dans ce cas n’a pas beaucoup de sens. Ce concept est systématiquement employé, et souvent à mauvais escient.

Même les professionnels de la donnée sont concernés par ce manque de rigueur, en particulier lorsqu’ils emploient des techniques complexes. Plus de complexité ne veut pas dire plus de pertinence ; c’est même bien souvent le contraire. J’interviens régulièrement en tant que formateur auprès d’un public averti et lorsque je demande comment évaluer la qualité d’un modèle de régression linéaire, la réponse est toujours la même : le RMSE (il s’agit d’une mesure de la qualité d’un modèle). Personne ne remet jamais en cause l’emploi de cet indicateur, personne ne cherche à connaître sa signification, ni son intérêt. Les professionnels l’utilisent machinalement, sans se poser davantage de questions. Pourtant, de la même manière que la moyenne, le RMSE ne devrait s’employer qu’en Mediocristan !

L’avenir n’est pas un long passé

A moins que vous ne croyiez dans la voyance, l’avenir ne peut être prédit[2]. En revanche, il est possible de faire des hypothèses sur ce qu’il va advenir en concevant des modèles « prédictifs » basés sur des observations passées. Tout repose donc sur des observations. Or, vous observez uniquement ce qui est arrivé, et non pas ce qui va advenir ou ce qui aurait pu arriver. Vous disposez d’informations partielles, et il en sera toujours ainsi.

Il y a quelques semaines, mon mur LinkedIn était inondé de posts sur le Bitcoin. Certains expliquaient pourquoi il fallait investir dans cette crypto-monnaie.

Ils prédisaient qu’elle allait facilement franchir le cap des 20 000 €. D’autres annonçaient son effondrement. Pour justifier leurs dires, tous s’appuyaient sur des modèles financiers et des analyses sociologiques. Le Bitcoin n’a pas franchi le cap des 20 000 €. Il a chuté de plus de moitié de sa valeur d’il y a deux mois. Est-ce que les pessimistes ont eu raison ? Si le Bitcoin remonte et atteint 40 000 € dans six mois, que dira-t-on alors ? De mêmes données peuvent tout aussi bien confirmer une théorie que valider son exact opposé.

datadriven2

Personne n’est capable, même avec les modèles les plus sophistiqués, de prédire l’avenir. Il faut avoir conscience que nous ne faisons qu’interpréter les données pour qu’elles s’accordent à notre façon de penser.

Nous vivons dans un monde de conjecture

La démarche Data-Driven permet d’éliminer certains choix par la donnée. Nous sommes sûrs de ce qui est faux mais pas de ce qui est vrai. Dans le monde des starts up, le concept de « fail fast, fail often » est souvent utilisé : chaque essai infructueux permet de se rapprocher un peu plus de la solution, puisqu’une possibilité supplémentaire est éliminée. C’est en utilisant ce type d’approche que la pensée Data-Driven prend tout son sens.

Vous l’aurez compris, mon propos n’est pas de fustiger la pensée Data-Driven, mais de comprendre les conditions de son utilisation. Ma crainte la plus grande serait de dévoyer cette démarche à cause d’utilisations inappropriées qui entraîneraient son abandon.

Article réalisé par Adrien BOUHOT :

Consultant Data scientist orienté digital, je m’intéresse à tout ce qui touche de près ou de loin à la data et à son utilisation. Issu d’une formation Statistique, j’ai évolué au fil des expériences vers les écosystèmes Big Data qui représentent un nouvel eldorado où de nombreuses choses restent à découvrir et à construire !
Adepte de la conversation autour des systèmes d’informations, de leur exploitation, de la Statistique et de son usage ainsi que de la sociologie dans son ensemble, n’hésitez pas à échanger avec moi !

Logo_Linkedin_petit ou directement : adrien.bouhot@gmail.com

[1] Concept popularisé par Nassim Nicholas Taleb dans son livre le Cygne Noir. Il s’agit d’un monde où un individu n’a pas d’impact majeur sur le reste de la série. Exemple : les statistiques liées au poids, à l’âge, à la taille. Même le plus grand individu du monde ne suffit pas à faire varier la moyenne globale. Il influence peu. Au contraire de l’Extremistan où un individu peut avoir un fort impact. Exemple : les salaires, le nombre de pages vues sur un site.

[2] Nous ne pouvons pas prédire les phénomènes humains donc marketing contrairement à de nombreux phénomènes physiques.

Laisser un commentaire