L’heure du Big Data

IBM a décidé de frapper un grand coup ce début d’année en annonçant un investissement d’un milliard de dollars sur les deux prochains exercices, et l’installation de 2000 chercheurs et développeurs au coeur de la Silicon Alley à New York.
En donnant un nouvel élan à son projet Newton, IBM a estimé que l’heure du Big Data a sonné et que notre présent technologique est désormais articulé autour de l’analyse automatique de données non structurées et de l’apprentissage automatisé.

Le Big Data et l’Informatique cognitive

Cet événement signe peut-être l’avènement de la troisième ère de l’informatique, une informatique cognitive, annoncée pour prendre la suite de l’informatique de calcul et l’informatique programmable.

On dit habituellement que la question de la richesse des données et de leur exploitation est née au sein du monde académique quand en 2000, Peter Liman et Hal R. Varian, de l’université de Berkeley, ont entrepris de mesurer la quantité d’information produite et stockée dans les médias, notamment numériques. Le rapport How Much Information, publié en 2003 y évoquait la croissance exponentielle des données enregistrées. Des données très variées et toujours en mouvement.

Volume, variété, vitesse

Le concept de Big Data s’est ensuite progressivement forgé autour des 3 V (volume, variété, vitesse) : non seulement les données s’accumulent (l’information accessible au format numérique est passée de 193 petabytes en 1996, l’équivalent de tous les livres jusque-là imprimés par l’Humanité, à 2,7 zetabytes, soit un million de fois plus, en 2012), et à moindres coûts, mais elles proviennent de sources de plus en plus variées, et sont traitées en temps quasi réel.

Une puissance phénoménale qu’on peut voir à l’oeuvre sur les marchés avec l’introduction du Trading à haute fréquence (et ses ravages…) et qui commande désormais de nouvelles stratégies complexes de traitement de données.

Mais si dans la plupart des cas, le Big Data sert surtout à designer de nouvelles technologies informatiques capables de traiter ces données massives, il est également l’objet de débats intenses concernant la transformation économique et sociale induite par ces technologies, voire même une possible et historique rupture épistémologique coïncidant au passage de méthodes hypothético-déductives sur lesquelles s’est édifiée la science moderne à une logique purement inductive, radicalement différente.

Une « Science sans théorie »

Sur cette dernière dimension, c’est l’éditorialiste du magazine Wired, Chris Anderson, qui a formulé l’idée d’une science « sans théorie » : des résultats qui n’ont rien de scientifique et qui restent inexplicables pour l’intelligence humaine anticipent la réalité et permettent des prévisions tant dans le domaine de la santé que dans celui de la sécurité ou du commerce, par exemple… tout en faisant l’impasse sur les théories ou explications rationnelles. Ici, la corrélation remplace le plus souvent la causalité.

La façon dont travaillent les scientifiques aujourd’hui en est déjà profondément affectée. Dans cet article de Wired, l’objectif d’une expérimentation de masse sur le vieillissement des os conduite en Californie, n’est pas de délivrer des preuves scientifiques : la connaissance médicale obtenue à l’issue de cette expérience est le fruit de corrélations statistiques vérifiées à très très grande échelle. Chris Anderson parle de la fin de la théorie ; La connaissance (la science ?) sera de plus en plus amenée à être produite par induction à partir des corrélations extraites de grandes masses de données.

Mais dans l’immédiat et de façon plus pragmatique, les enjeux de compétitivité sont réels. Une étude de McKinsey de mai 2011 en a d’ailleurs vérifié les promesses, tant sur le plan de l’innovation, que de la productivité ou de la concurrence. L’ensemble des secteurs économiques mais également l’administration publique devraient en profiter à très grande échelle alors que nous n’en sommes actuellement qu’aux balbutiements des toutes premières initiatives.

Priorité à la formation

Pour bien se faire, la formation de nouvelles compétences, des « rats de données », est indispensable. Des Data Scientists chargés de permettre aux organisations de « tirer profit de toutes leurs données ». Des profils aguerris aux statistiques également passés maîtres dans l’art de mobiliser leurs capacités analytiques au service d’une anticipation et d’une compréhension parfaite des modèles économiques.

Le « Job le plus sexy du 21ème siècle » comme le désigne la Harvard Business Review est surtout très rare : L’étude McKinsey estimait à entre 140 000 à 190 000 le nombre de professionnels recherchés pour l’analyse des données d’ici à 2018.