Et la lumière fût!
Des changements colossaux
Pendant plus de 20 ans, j’ai œuvré au sein d’un grand groupe, leader mondial des matériaux de construction, essentiellement dans des positions de R&D, Innovation ou Expertise technique en Europe et en Amérique du Nord. Très tôt, j’ai été immergé dans le monde de la donnée. J’ai participé puis animé des groupes d’expertise fonctionnelle et de formation autour de la donnée tout au long de ma carrière. C’est l’activité dans laquelle je prenais le plus de plaisir, ce qui explique pour une large part mon changement de trajectoire professionnelle. Dans un grand groupe caractérisé par l’importance de la performance, les indicateurs et les données étaient omniprésents et constituaient souvent mon quotidien. Ce que je ne réalisais alors pas, c’est que j’utilisais des techniques et des outils du XXème siècle. Comme on dit familièrement, « au royaume des aveugles, les borgnes sont les rois». Or, dans le début des années 2000, des progrès théoriques gigantesques ont été accomplis dans le domaine des statistiques et de l’apprentissage automatique (machine learning). Ces progrès, alliés à l’augmentation des puissances de calcul et surtout au développement des outils ouverts, sont les trois avancées qui ont complètement transformé la discipline.
Tout est données
Le plus grand changement concerne peut-être la matière première elle-même: la donnée. Dans mon monde d'avant, la donnée était soit une donnée numérique (des indicateurs, des résultats d’une analyse physico-chimique de R&D ou de contrôle de la qualité, des mesures de capteurs, etc...) ou catégorielle (un type de produit, un segment de clients, un type d’appareil de production) et les techniques de traitement des données que nous utilisions dans l’industrie s’appliquaient quasiment exclusivement à ce type de données. Dans la partie plus manufacturière de l’activité, nous utilisions beaucoup les cartes de contrôle pour piloter les procédés, détecter les changements, etc...
Aujourd’hui, tout est «données» et tout est potentiellement mobilisable pour générer de la connaissance ou pour améliorer la productivité. Que ce soient les images, les vidéos ou le texte, les trois avancées mentionnées précédemment ont permis des progrès colossaux dans l’exploitation de ce type de données (généralement appelées données non structurées). Les avancées théoriques et l’augmentation des puissances de calcul ont créé les conditions gagnantes permettant l’évolution et la mise à profit de techniques du domaine de l’apprentissage profond pour exploiter ces données. La généralisation des outils ouverts permet leur démocratisation et rend ces techniques accessibles à tous, pas uniquement aux secteurs des « big techs». Chez Videns nous avons, par exemple, développé des modèles qui classifient automatiquement des documents numérisés sous forme d’images et qui extraient des informations spécifiques en fonction du type de document (un fournisseur pour une facture par exemple).
Les données structurées ne sont pas en reste
Mais il serait faux de penser que les avancées récentes concernent uniquement les données non structurées et l’apprentissage profond. Au début des années 2000, notre capacité à prédire sur la base de données structurées (numériques ou catégorielles) a également fait un bon gigantesque, notamment avec le développement des méthodes d’ensembles. Cet ensemble de techniques, qui regroupe les « forêts aléatoires » et les «gradient boosting», sont des techniques capables de modéliser des phénomènes fortement non linéaires, qui sont quand même monnaie courante autour de nous. Chez Videns, nous avons utilisé ces techniques pour prédire, par exemple, la propension d’un client à adopter un nouveau produit financier ou pour prédire le prix de billets d’avion en fonction des caractéristiques du voyage.
Les freins culturels
Dans mon ancienne compagnie qui était caractérisée par une forte culture d’ingénieurs, un des freins importants au développement de modèles prédictifs de type apprentissage automatique était la résistance à l’utilisation de modèles purement statistiques, c’est-à-dire de modèles qui ne soient pas basés sur des règles d’ingénieurs ou des lois issues de la physique et de la chimie. Une des justifications de cette résistance peut être la croyance (peut- être inconsciente) que la capacité de généralisation de ces modèles «statistiques» sera moindre que ceux qui sont appuyés sur des lois physiques par exemple. Or, un des principes du développement de modèles prédictifs en apprentissage automatique est précisément de s’assurer que la performance d’un modèle n’est pas juste observable sur les données utilisées pour l’apprentissage, mais que le modèle est capable d’être généralisé avec une performance satisfaisante à de nouvelles données.
Une autre résistance parfois observée dans des contextes d’affaires est la difficulté à accepter des modèles de type «boîte noire», c’est à dire des modèles pour lesquels, malgré une bonne capacité de généralisation, il est difficile d’expliquer le cheminement précis qui a amené un modèle à une prédiction donnée à partir des données d’entrée. Peut-être que cette résistance est liée à notre besoin de nous représenter mentalement le fonctionnement du modèle ou du moins d’en avoir une bonne intuition - ou bien que nous avons besoin de progresser dans notre maturité avant de faire confiance à ce type de solutions? Quoiqu’il en soit, cet aspect est un domaine de R&D intense dans le domaine de la science des données. Chez Videns, en fonction du contexte d’affaire, une de nos pratiques peut être le développement de deux modèles prédictifs en parallèle, un modèle prédictif explicable et un modèle prédictif de type «boite noire». En fonction de l’écart de performance, le client peut alors décider d’utiliser l’un ou l’autre (ou les deux!).
Essayez!
Il est clair que l’engouement, le «hype» pour l’intelligence artificielle et l’apprentissage automatique, est aujourd’hui extrêmement élevé. Mais il y a des raisons à cela. Comme j’ai pu en témoigner dans ces quelques lignes, le domaine a vécu une transition intense depuis une vingtaine d’années. Cela met à portée de tous ou de beaucoup la capacité à exploiter mieux ses données et à créer de la valeur.