L’heure du Big Data

IBM a décidé de frapper un grand coup ce début d’année en annonçant un investissement d’un milliard de dollars sur les deux prochains exercices, et l’installation de 2000 chercheurs et développeurs au coeur de la Silicon Alley à New York.
En donnant un nouvel élan à son projet Newton, IBM a estimé que l’heure du Big Data a sonné et que notre présent technologique est désormais articulé autour de l’analyse automatique de données non structurées et de l’apprentissage automatisé.

Le Big Data et l’Informatique cognitive

Cet événement signe peut-être l’avènement de la troisième ère de l’informatique, une informatique cognitive, annoncée pour prendre la suite de l’informatique de calcul et l’informatique programmable.

On dit habituellement que la question de la richesse des données et de leur exploitation est née au sein du monde académique quand en 2000, Peter Liman et Hal R. Varian, de l’université de Berkeley, ont entrepris de mesurer la quantité d’information produite et stockée dans les médias, notamment numériques. Le rapport How Much Information, publié en 2003 y évoquait la croissance exponentielle des données enregistrées. Des données très variées et toujours en mouvement.

Volume, variété, vitesse

Le concept de Big Data s’est ensuite progressivement forgé autour des 3 V (volume, variété, vitesse) : non seulement les données s’accumulent (l’information accessible au format numérique est passée de 193 petabytes en 1996, l’équivalent de tous les livres jusque-là imprimés par l’Humanité, à 2,7 zetabytes, soit un million de fois plus, en 2012), et à moindres coûts, mais elles proviennent de sources de plus en plus variées, et sont traitées en temps quasi réel.

Une puissance phénoménale qu’on peut voir à l’oeuvre sur les marchés avec l’introduction du Trading à haute fréquence (et ses ravages…) et qui commande désormais de nouvelles stratégies complexes de traitement de données.

Mais si dans la plupart des cas, le Big Data sert surtout à designer de nouvelles technologies informatiques capables de traiter ces données massives, il est également l’objet de débats intenses concernant la transformation économique et sociale induite par ces technologies, voire même une possible et historique rupture épistémologique coïncidant au passage de méthodes hypothético-déductives sur lesquelles s’est édifiée la science moderne à une logique purement inductive, radicalement différente.

Une « Science sans théorie »

Sur cette dernière dimension, c’est l’éditorialiste du magazine Wired, Chris Anderson, qui a formulé l’idée d’une science « sans théorie » : des résultats qui n’ont rien de scientifique et qui restent inexplicables pour l’intelligence humaine anticipent la réalité et permettent des prévisions tant dans le domaine de la santé que dans celui de la sécurité ou du commerce, par exemple… tout en faisant l’impasse sur les théories ou explications rationnelles. Ici, la corrélation remplace le plus souvent la causalité.

La façon dont travaillent les scientifiques aujourd’hui en est déjà profondément affectée. Dans cet article de Wired, l’objectif d’une expérimentation de masse sur le vieillissement des os conduite en Californie, n’est pas de délivrer des preuves scientifiques : la connaissance médicale obtenue à l’issue de cette expérience est le fruit de corrélations statistiques vérifiées à très très grande échelle. Chris Anderson parle de la fin de la théorie ; La connaissance (la science ?) sera de plus en plus amenée à être produite par induction à partir des corrélations extraites de grandes masses de données.

Mais dans l’immédiat et de façon plus pragmatique, les enjeux de compétitivité sont réels. Une étude de McKinsey de mai 2011 en a d’ailleurs vérifié les promesses, tant sur le plan de l’innovation, que de la productivité ou de la concurrence. L’ensemble des secteurs économiques mais également l’administration publique devraient en profiter à très grande échelle alors que nous n’en sommes actuellement qu’aux balbutiements des toutes premières initiatives.

Priorité à la formation

Pour bien se faire, la formation de nouvelles compétences, des « rats de données », est indispensable. Des Data Scientists chargés de permettre aux organisations de « tirer profit de toutes leurs données ». Des profils aguerris aux statistiques également passés maîtres dans l’art de mobiliser leurs capacités analytiques au service d’une anticipation et d’une compréhension parfaite des modèles économiques.

Le « Job le plus sexy du 21ème siècle » comme le désigne la Harvard Business Review est surtout très rare : L’étude McKinsey estimait à entre 140 000 à 190 000 le nombre de professionnels recherchés pour l’analyse des données d’ici à 2018.

Khan, Reshef, Gates et les nouveaux acteurs du monde de la formation

Le VC et ancien CEO de Paypal Peter Thiel est convaincu que des esprits brillants restent aujourd’hui à l’extérieur du système éducatif. Et son idée provocatrice, qui prend la forme d’un projet appellé 20 under 20, a déjà attiré les meilleurs talents prêts à renoncer à Stanford ou au MIT pour renforcer leurs projets et talents d’entrepreneurs au contact de prestigieux et influents parrains. Délivrés de contraintes financières qui selon Peter Thiel pèsent sur les vocations, les candidats peuvent se consacrer à leur passion sans aller vers les filières réputées les plus rémunératrices, seules capables de rembourser les prêts pharaoniques nécessaires au financement des scolarités dans les meilleures écoles et universités.

La fondation Bill et Melinda Gates consacre pour sa part une partie significative de ses investissements à la promotion de nouveaux outils capables d’aborder les changements induits par la généralisation des nouvelles technologies dans le monde de l’éducation : Inigral parie par exemple sur l’adoption de réseaux sociaux dédiés sur les campus, tandis que chaque année de nombreux projets liés aux nouvelles méthodes éducatives sont généreusement financés et que des aides sont accordées aux bibliothèques pour la mise en place d’infrastructures numériques visant à les sauver d’une disparition définitive.

Les coûts de duplication et d’accès aux cours drastiquement réduits par la généralisation d’Internet à travers le monde, des professeurs partagent aujourd’hui leur unique et précieux savoir traditionnellement réservé à quelques dizaines de privilégiés par an, à des milliers d’étudiants à travers le monde ; Peter Norvig, Directeur de recherche chez Google et Sebastien Thrun, professeur à Harvard, ont enregistré 100 000 demandes (!) pour suivre AI, leur programme d’introduction à l’intelligence artificielle.

L’entrepreneur israélien Shai Reshef, a lui 550 000 fans sur Facebook, ce qui fait de lui la deuxième université après Harvard, et son University of the People fondée en 2009 a déjà admis 1200 étudiants de 121 pays différents. Il vient d’annoncer un projet à 6 millions de dollars basé sur 2000 professeurs bénévoles et des technologies et contenus Open Source.

Aucune plateforme n’a pourtant l’impressionnant succès de Khan Academy (créée en 2006) et ses 4 millions de visiteurs uniques en novembre 2011. Ses 2600 leçons d’histoire, de mathématiques ou de biologie sont filmées et diffusées gratuitement dans le monde entier à travers YouTube et séduisent élèves, mais également parents et professeurs, qui s’en servent pour approfondir leurs connaissances depuis leur salon et à moindre coût.
Le succès populaire du projet porté par Salman Khan excuse presque toutes les critiques qui lui sont faites, essentiellement au sujet de son manque d’innovation et du médiocre dispositif technologique déployé.
C’est assez injuste si l’on songe aux services rendus à des populations qui n’ont pas les possibilités matérielles d’accéder à AUCUN autre moyen pédagogique et au dévouement total de ce petit bonhomme qui a enregistré lui-même une bonne partie des contenus depuis son appartement.

Et si sa proposition d’utiliser la vidéo comme support démocratique et accessible pour tous n’a rien d’extraordinaire, que n’a t-elle pas été émise plus tôt par des Sorbonne anciennes supposées détenir tous les savoirs millénaires.
Des citadelles du savoir qui devraient s’ouvrir plus à l’innovation sous peine de se voir damer le pion sous quelques années par une concurrence nouvelle qui n’obéit absolument pas aux traditionnelles règles du jeu.
Une concurrence élargie, plus petite, agile, sans complexes, extraordinairement inventive et qui ne connaît aucune limite dans ses ambitions.