Pendant longtemps, les données et leur exploitation sont restées la chasse gardée des entreprises dites « Data Centric » où le business dépend directement de la capacité à analyser et exploiter les données collectées. Avec l’avènement du désormais old-school « Web 2.0 », l’exploitation intelligente de la donnée a permis l’émergence de nouveaux empires, les principaux étant résumés par les acronymes GAFA (Google, Apple, Facebook, Amazon) et BATX (Baidu, Alibaba, Tencent et Xiaomi).
Or, il s’avère qu’avec le temps, la concurrence aidant, de plus en plus d’entreprises ont revu leur positionnement et ont petit à petit glissé pour se retrouver elles aussi sous la définition « Data centric ». Cela a été plus simple pour certains, les assureurs par exemple ont toujours eu une appétence pour l’exploitation des données afin de concevoir leurs contrats (métier d’actuariat). Les secteurs de la finance et de la banque, hautement concurrentiels, ont aussi compris très tôt l’avantage qu’on pouvait tirer de l’exploitation de la connaissance extraite de données brutes, sur des temporalités très réduites voir en temps réel (cf. trading à haute fréquence).
Pour d’autres, ce virage est plus complexe à négocier. Pour la grande distribution par exemple, la compétition est féroce - et semble inégale - lorsque Amazon exploite la connaissance client acquise sur des millions de transactions pour proposer son fameux « les utilisateurs qui ont acheté ce produit ont aussi regardé ceux-ci… » (cf. collaborative filtering, systèmes de recommandation) et rendre l’expérience de consommation personnalisée. Dans ce cas, pour les utilisateurs finaux ce n’est plus « la » boutique Amazon mais plutôt « ma » boutique Amazon, en somme à chacun « sa » boutique Amazon.
Très en amont dans leur réflexion, nous pouvons classer les entreprises en deux grandes familles : celles qui ont une roadmap précise de leur transition data, et celles qui savent que leurs données recèlent des connaissances utiles mais qui n’en font rien et désirent commencer à les exploiter. Si les avancées sont inégales, chacune de ses deux familles peut capitaliser et s’employer à organiser sa « chaine de valeur de la data. »
Appropriation
La chaine de valeur data commence par une étape d’appropriation du contexte et des enjeux pour les entreprises et organisations. Si elles sont les mieux placées pour connaître elles-mêmes leur métier, la valorisation de leur patrimoine de données et son exploitation représente souvent un challenge difficile à surmonter, qui nécessite le plus souvent un accompagnement pour la stratégie data et ce dès les premiers moments de sa mise en place.
Au travers d’ateliers réunissant les métiers et les représentants de l’IT, experts et data scientists les accompagnent tout en s’appropriant les enjeux. Ces workshops permettent d’apporter la réponse la plus adaptée, tout en situant la valeur et l’identification des univers de données.
Il est intéressant de s’attarder sur le cas particulier du consultant data scientist. Si vous fournissez un jeu de données à un data scientist, il trouvera quasi certainement des épiphénomènes, des signaux faibles et des corrélations qui ne prendront sens que s’ils sont rapprochés des objectifs métiers. Cette collaboration avec les métiers est donc indispensable car sans elle il n’y a pas d’appropriation.
Analyse
Aussi, étant consultant, le data scientist intervient naturellement sur différents terrains, dans différentes industries. Il peut ainsi avoir le recul nécessaire et être force de proposition, conseiller les organisations sur les prochaines étapes à suivre dans l’analyse.
Fort de la compréhension acquise du métier et de ses enjeux, cela consiste en la structuration de la stratégie data autour de use cases précis et délimités. Les use cases peuvent être identifiés en amont par les organisations, dans ce cas il est possible d’intervenir dans la rationalisation et dans l’étude de faisabilité. Autrement, il faut envisager des axes d’étude pertinents et travailler à la définition de uses cases avec les métiers.
Traitement & Enrichissement
Par la suite, vient l’étape de traitement et d’enrichissement. Cette étape constitue la concrétisation des réflexions et études effectuées en amont. Elle prend la forme d’une réponse technologique adaptée aux uses cases, permettant la mise en place des solutions proposées. Par exemple : un scoring client, des traitements prédictifs, du machine learning, de la réconciliation de données.
Les volumétries étant souvent importantes, des traitements Big Data s’imposent. Les architectes dimensionnent les solutions selon les uses cases à adresser, mais le paradigme qui permet d’adresser les sujets reste inchangé : le datalake. Il s’agit principalement de casser les silos et de fragmenter les données, puis de les regrouper dans un référentiel unique pour en permettre le croisement.
A titre d’exemple, cette approche repose souvent sur des socles Hadoop et l’une des 3 éditions majeures du marché (Cloudera, HortonWorks, MapR). Cela permet de fournir et d’implémenter des pipelines de traitement de la données adaptés aux besoins des entreprises.
Activation
Last but not least, vient l’étape d’activation, durant laquelle la donnée enrichie par la connaissance extraite vient se déverser dans un écosystème pour devenir actionnable. Il reste donc à fournir les leviers de son activation. Cela peut prendre la forme de restitutions graphiques (reportings), d’applicatifs spécifiques, d’études ou bien sur l’ensemble de la chaîne de traitement à travers des automates industrialisés de traitement de la donnée qui viennent alimenter une brique du système d’information.
Ces quatre étapes constituent donc « la chaine de valeur de la data ». Elle représente l’outil méthodologique qui permet de mettre en place efficacement et de concrétiser la valorisation de la donnée au sein des organisations.
Ryadh Dahimene
Note: Repris ici, cet article est originellement paru sur: https://www.bigdataparis.com/2017/ysance_fev.html