L’heure du Big Data

IBM a décidé de frapper un grand coup ce début d’année en annonçant un investissement d’un milliard de dollars sur les deux prochains exercices, et l’installation de 2000 chercheurs et développeurs au coeur de la Silicon Alley à New York.
En donnant un nouvel élan à son projet Newton, IBM a estimé que l’heure du Big Data a sonné et que notre présent technologique est désormais articulé autour de l’analyse automatique de données non structurées et de l’apprentissage automatisé.

Le Big Data et l’Informatique cognitive

Cet événement signe peut-être l’avènement de la troisième ère de l’informatique, une informatique cognitive, annoncée pour prendre la suite de l’informatique de calcul et l’informatique programmable.

On dit habituellement que la question de la richesse des données et de leur exploitation est née au sein du monde académique quand en 2000, Peter Liman et Hal R. Varian, de l’université de Berkeley, ont entrepris de mesurer la quantité d’information produite et stockée dans les médias, notamment numériques. Le rapport How Much Information, publié en 2003 y évoquait la croissance exponentielle des données enregistrées. Des données très variées et toujours en mouvement.

Volume, variété, vitesse

Le concept de Big Data s’est ensuite progressivement forgé autour des 3 V (volume, variété, vitesse) : non seulement les données s’accumulent (l’information accessible au format numérique est passée de 193 petabytes en 1996, l’équivalent de tous les livres jusque-là imprimés par l’Humanité, à 2,7 zetabytes, soit un million de fois plus, en 2012), et à moindres coûts, mais elles proviennent de sources de plus en plus variées, et sont traitées en temps quasi réel.

Une puissance phénoménale qu’on peut voir à l’oeuvre sur les marchés avec l’introduction du Trading à haute fréquence (et ses ravages…) et qui commande désormais de nouvelles stratégies complexes de traitement de données.

Mais si dans la plupart des cas, le Big Data sert surtout à designer de nouvelles technologies informatiques capables de traiter ces données massives, il est également l’objet de débats intenses concernant la transformation économique et sociale induite par ces technologies, voire même une possible et historique rupture épistémologique coïncidant au passage de méthodes hypothético-déductives sur lesquelles s’est édifiée la science moderne à une logique purement inductive, radicalement différente.

Une « Science sans théorie »

Sur cette dernière dimension, c’est l’éditorialiste du magazine Wired, Chris Anderson, qui a formulé l’idée d’une science « sans théorie » : des résultats qui n’ont rien de scientifique et qui restent inexplicables pour l’intelligence humaine anticipent la réalité et permettent des prévisions tant dans le domaine de la santé que dans celui de la sécurité ou du commerce, par exemple… tout en faisant l’impasse sur les théories ou explications rationnelles. Ici, la corrélation remplace le plus souvent la causalité.

La façon dont travaillent les scientifiques aujourd’hui en est déjà profondément affectée. Dans cet article de Wired, l’objectif d’une expérimentation de masse sur le vieillissement des os conduite en Californie, n’est pas de délivrer des preuves scientifiques : la connaissance médicale obtenue à l’issue de cette expérience est le fruit de corrélations statistiques vérifiées à très très grande échelle. Chris Anderson parle de la fin de la théorie ; La connaissance (la science ?) sera de plus en plus amenée à être produite par induction à partir des corrélations extraites de grandes masses de données.

Mais dans l’immédiat et de façon plus pragmatique, les enjeux de compétitivité sont réels. Une étude de McKinsey de mai 2011 en a d’ailleurs vérifié les promesses, tant sur le plan de l’innovation, que de la productivité ou de la concurrence. L’ensemble des secteurs économiques mais également l’administration publique devraient en profiter à très grande échelle alors que nous n’en sommes actuellement qu’aux balbutiements des toutes premières initiatives.

Priorité à la formation

Pour bien se faire, la formation de nouvelles compétences, des « rats de données », est indispensable. Des Data Scientists chargés de permettre aux organisations de « tirer profit de toutes leurs données ». Des profils aguerris aux statistiques également passés maîtres dans l’art de mobiliser leurs capacités analytiques au service d’une anticipation et d’une compréhension parfaite des modèles économiques.

Le « Job le plus sexy du 21ème siècle » comme le désigne la Harvard Business Review est surtout très rare : L’étude McKinsey estimait à entre 140 000 à 190 000 le nombre de professionnels recherchés pour l’analyse des données d’ici à 2018.

Google pourrit-il le cerveau ?

Google pourrit-il le cerveau ?

Le moteur de recherche californien s’est imposé en l’espace de quelques années comme une des marques les plus connues dans le monde, si ce n’est la plus connue. Pour le meilleur ou pour le pire ?
Le réponse n’est pas si évidente que cela. Eléments d’efficacité immédiate, les moteurs de recherche permettent en effet par la magie d’une hypertextualité algorithmique d’aller plus rapidement d’un point A à un point B, de repérer sans trop de délais une information nécessaire à l’élaboration d’une autre information, connexe, plus particulière ou plus générale. Ce n’est d’ailleurs pas si l’argument premier de Google, celui qui l’a vu triompher commercialement des ancêtres Yahoo! ou Altavista, est celui de la rapidité.

Pourtant, un peu comme Socrate qui s’en prenait à l’écriture pour en dénoncer une toxicité évidente à ses yeux si elle était mal employée, de plus en plus de voix s’élèvent pour dénoncer l’absence de profondeur et d’argumentation que causerait la substitution d’un Google toujours à portée de mains aux recherches d’un temps jadis, plus ardues, mieux organisées ou plus accidentelles. L’apprentissage serait en danger pour cause de facilité et de dépossession du savoir.

Car si l’intelligence a en effet été  longtemps définie en partie (ou surtout ?) par la détention du savoir et des connaissances, elle est aujourd’hui avant tout appréhendée pour sa capacité à identifier, retrouver et manipuler des stocks d’informations périphérisés, c’est à dire stockés dans des clouds installés quelque part sur des plateformes offshore.

« L’opérateur du savoir a remplacé son détenteur » dit Marcel Gauchet.
Pour quel progrès ?
Selon Nicholas Carr, notre intelligence sans cesse distraite par des éléments extérieurs et toujours différents, fonctionne désormais en discontinuité permanente et ne réagit plus de la même façon qu’avant. Nous lisons beaucoup plus mais beaucoup moins bien ; L’efficacité et l’immédiateté prennent la pas sur la profondeur, l’expérience et la fabrication du souvenir. Google a fait de l’information un produit consommable, un produit comme un autre qui peut être exploité et traité avec une efficacité industrielle. « Plus le nombre de morceaux d’information auxquels nous pouvons “accéder” est important, plus rapidement nous pouvons en extraire l’essence, et plus nous sommes productifs en tant que penseurs« , constate ainsi Carr qui rappelle une citation plutôt troublante de Sergey Brin parue dans un entretien de 2004 pour Newsweek “Il est certain que si vous aviez toutes les informations du monde directement fixées à votre cerveau ou une intelligence artificielle qui serait plus intelligente que votre cerveau, vous vous en porteriez mieux.”

D’autres voix comme celle de Michel Serres sont franchement plus optimistes. Dans La petite Poucette, le philosophe s’émerveille des nouvelles aptitudes nées de l’utilisation des smartphones et tablettes et du nombre impressionnant des possibilités de connexions permises par chaque action du pouce. La libération de certaines zones du cerveau réservées à l’accumulation d’informations plus ou moins utiles permettrait une amélioration décisive de nos capacités cognitives.

Et enfin, que peuvent nos cerveaux humains face au déluge d’informations créées chaque jour ? En 2008, l’humanité a déversé 480 milliards de Gigabytes sur Internet. En 2010, c’est 800 milliards de Gygabytes qui ont été déversés sur le Net, soit, comme l’a remarqué Eric Schmidt, plus que la totalité de ce que l’humanité a produit ou enregistré depuis sa naissance jusqu’en 2003. En permettant de créer autant d’informations, l’intelligence humaine n’a pas prévu qu’elle serait seule capable de les contrôler et de les gérer directement.
Pas sous sa forme actuelle du moins.

L’article de Nicolas Carr : Is Google Making Us Stupid?
Le discours de Michel Serres à l’Académie Française