Pour des algorithmes transparents !

17.08.2018

En exclusivité pour notre observatoire, Capitaine Data revient sur le fonctionnement des algorithmes et les risques potentiels liés à l’exploitation des données par les intelligences artificielles.

C’est quoi un algorithme ?

Selon la définition du Larousse, un algorithme est “un ensemble de règles opératoires dont l’application permet de résoudre un problème énoncé au moyen d’un nombre fini d’opérations. Un algorithme peut être traduit, grâce à un langage de programmation, en un programme exécutable par un ordinateur.”

Oulah, c’est compliqué tout ça !

Pour faire simple, on peut comparer un algorithme à une banale recette de cuisine. En effet, cuisiner un plat repose sur un processus en plusieurs étapes, impliquant chacune plusieurs éléments. Les ingrédients sont les facteurs constitutifs, les instructions (type rissoler, faire revenir ou faire frire) sont les tâches exécutives et le plat final constitue le résultat. Un algorithme fonctionne comme cela : il part de plusieurs éléments, y applique des tâches dans un certain ordre, et arrive à un résultat différent en fonction des éléments impliqués et des tâches effectuées.

Et donc les entreprises comme Facebook les utilisent pour nous proposer du contenu qui correspond à notre profil, c’est ça ?

Oui, entre autres. Facebook utilise tes données et tes interactions pour déterminer quel contenu est susceptible de t’intéresser plus qu’un autre. L’algorithme se base ainsi sur tes données (les facteurs constitutifs), tes actions sur le réseau social (quels contenus tu likes le plus, quels profils tu as consultés, etc) pour déterminer ce qui apparaîtra en premier sur ton fil d’actualité.

Mais attention, Facebook utilise aussi certains de ses algorithmes pour te profiler à des fins commerciales. Leurs algorithmes dédiés effectuent des calculs à partir de grandes masses d’informations (en l’occurrence, la totalité des données des profils Facebook). Grâce à ces données, ils réalisent des classements, sélectionnent des informations, et en déduisent un profil, en général de consommation, qui est ensuite utilisé ou exploité commercialement.

Les réseaux sociaux sont-ils les seuls à utiliser mes données pour nourrir leurs algorithmes ?

Non, toutes les autres plateformes numériques le font. Par exemple, lorsque tu navigues sur Netflix ou YouTube ou quand tu écoutes de la musique sur Spotify, des algorithmes sont utilisés pour te recommander du contenu. Ces algorithmes sont censés améliorer ton expérience sur ces plateformes. Ils utilisent tes données et tes interactions avec la plateforme pour te faire des suggestions personnalisées.

Ils ont l’air super utiles ces algorithmes en fin de compte !

Oui ils le sont. Mais ils peuvent aussi présenter un tas d’inconvénients. Avec la personnalisation des contenus induite par les algorithmes, chacun d’entre nous accède à une version particulière de ces services et plateformes, calibrée pour nous plaire ou nous faire réagir, contribuant in fine à orienter nos choix et nos comportements. Sans que l’on s’en rende compte, l’algorithme devient en quelque sorte le véritable chef d’orchestre de ce que nous voyons, lisons et partageons sur internet, contribuant à moduler nos préférences et nos opinions.

Pour faire simple, les algorithmes peuvent t’installer dans une « bulle de filtres » unique, optimisée pour ta personnalité supposée et modulée en fonction de tes actions. Des sites comme Facebook aboutissent donc, du fait de leurs algorithmes, à enfermer leurs utilisateurs au sein de certaines communautés, animées par des types de contenus susceptibles de leur plaire…

Et pourquoi c’est dangereux ?

Les algorithmes qui opèrent ce filtrage et cette hiérarchisation des contenus limitent l’éventail des sources d’informations à ta disposition, et des communautés avec lesquelles tu es amené à interagir. Prenons un exemple concret. Sur Facebook, si tu as l’habitude de cliquer sur des publications encensant les discours de Donald Trump, l’algorithme va te proposer ce genre de contenus en premier et ignorer les autres résultats connexes, te privant ainsi de la possibilité de les consulter !

Sur Netflix, les algorithmes de recommandation vont tout le temps te proposer des séries similaires à celles que tu as regardées dernièrement. Or, parfois les recommandations basées sur tes précédents visionnages peuvent être mal calibrées, comme en témoigne l’expérience malheureuse de Benoît Hamon qui n’avait pas manqué de tweeter pour s’en plaindre !

S’il n’y a que ça… ça va…

Justement, ce ne sont pas les seuls reproches qui peuvent être faits aux algorithmes. Ceux qui ont rencontré le plus de critiques jusqu’à présent utilisent la technique dite de “l’apprentissage machine” (machine learning). Concrètement, ce processus permet à l’intelligence artificielle d’évoluer au fur et à mesure qu’elle traite des données afin d’améliorer constamment la pertinence de ses résultats. Cette technique s’avère particulièrement efficace avec de grandes bases de données.

Et quels sont les risques d’un tel procédé ?

L’apprentissage machine suppose de recourir à une base de données fiable et de bien contrôler sa programmation. Par exemple, un algorithme formé à la reconnaissance et à l’analyse d’images n’obtiendra pas les mêmes résultats qu’une autre intelligence artificielle si les données auxquelles ils ont été confrontés divergent. C’est ce qu’ont démontré des chercheurs du MIT dans l’une de leurs expériences. Ces derniers ont entraîné une première IA avec des photos montrant des morts violentes ou horribles puisées sur un groupe de discussion Reddit, et une seconde avec des photos neutres. Ils ont ensuite soumis les deux machines au fameux test de Rorschach. Résultat, face à un même dessin, l’une voit un vase avec des fleurs, l’autre voit un homme se pendre. Moralité : le contrôle des données avec lesquelles sont entraînées les intelligences artificielles sont plus que déterminantes à son bon fonctionnement.

De plus, certains algorithmes qui utilisent l’apprentissage machine sont de vraies boîtes noires : on ne sait pas vraiment quelles caractéristiques font interagir l’algorithme pour parvenir à un résultat. Dans ce cas-ci, détecter ou prédire la source d’un dysfonctionnement d’un algorithme est extrêmement complexe.

On a beaucoup parlé de Tay, l’intelligence artificielle de Microsoft qui est devenue raciste et complotiste en moins de 24h. Est-ce que c’est aussi à cause de l’apprentissage machine ?

Tay était censée répondre aux internautes sur la base de données publiques et en apprenant au fur et à mesure de ses échanges avec les internautes. Elle a été nourrie de milliers de conversations humaines. Malgré cela, l’agent conversationnel n’était sans doute pas suffisamment préparé à faire le tri entre les internautes de bonne foi et les communautés de trolls cherchant à corrompre son éducation,…avec succès ! Cette expérience aura au moins eu le mérite de montrer les limites de l’apprentissage machine confronté, sans filtre éthique, à la violence de certaines communautés en ligne.

J’ai aussi entendu parler des biais de l’IA. Qu’est que c’est exactement ?

Parfois, les intelligences artificielles n’échappent pas aux biais cognitifs, c’est-à-dire, à des déviations qui amènent un algorithme à ne pas fonctionner comme il le devrait. Les biais peuvent provenir d’une base de données trop peu diversifiée, trop imprécise, et donc incomplète ; avec le risque d’aboutir à un algorithme qui accorderait une importance différente à des faits de même nature, pouvant introduire d’importants paradoxes dans les raisonnements produits, et provoquer des dysfonctionnements récurrents des mécanismes d’intelligence artificielle.

Mais les biais d’un algorithme ne sont pas toujours liés aux données que ces derniers utilisent, ils peuvent également venir d’une erreur lors de la conception de l’algorithme en lui-même. Par exemple, lors de sa programmation, si les hypothèses possibles sont mal décrites ou incomplètes, il se peut qu’un algorithme arrive à un mauvais résultat ou n’atteigne jamais son objectif !.

Mm… c’est très théorique tout ça… Concrètement, qu’est ce que cela veut dire ?

L’un des exemples les plus parlants pour illustrer ce phénomène est lié aux algorithmes de reconnaissance faciale, dont l’efficacité est corrélée à la couleur de peau des sujets étudiés. Pourquoi ? Parce que la base de données qui a servi à entraîner l’algorithme était composée en majorité d’hommes à peau claire ! La machine a donc focalisé son entraînement sur une majorité de profils type “homme à peau claire”, diminuant ainsi ses risques d’échec pour cette catégorie alors que dans le même temps, le manque de diversité de la base de données utilisée a conduit l’algorithme à faire des erreurs pour les profils qui y étaient sous-représentés.

Comment faire pour éviter ça ?

Plusieurs solutions peuvent permettre d’éviter ce genre de dérives, ou du moins de les limiter. Premièrement, toutes les entreprises qui utilisent des bases de données pour entraîner leurs algorithmes pourraient rendre ces données publiques, afin qu’une forme de contrôle externe puisse s’opérer. Dans le même esprit, et pour éviter que les intelligences artificielles puissent dévier de manière totalement opaque, il est important que le fonctionnement des algorithmes soit rendu transparent par leurs concepteurs, de sorte à ce que chacun puisse comprendre comment les données sont collectées et traitées pour aboutir à tel ou tel résultat.

Il est également nécessaire de respecter certains codes éthiques dès lors que l’on travaille au développement de ces algorithmes et intelligences artificielles, afin que nos avancées techniques dans ce domaine soient maîtrisées et ne puissent pas être utilisées à des fins malveillantes. Par exemple, si on reprend notre exemple des intelligences artificielles de reconnaissance faciale, les concepteurs devraient faire en sorte que les données servant à l’apprentissage de l’algorithme soit suffisamment diversifiées, afin d’éliminer de potentiels biais discriminatoires qui empêcheraient l’outil de fonctionner équitablement pour l’ensemble de la population.

Pour retrouver Capitaine Data sur Messenger, c’est par ici !