« Les algorithmes sont des opinions intégrées dans le code »

Publié le 13 juillet 2022 par admin3838

Dans cette conférence TED, elle décrit comment les algorithmes institutionnalisent régulièrement les biais, les mauvaises pratiques et l’opinion personnelle. Pire encore, le facteur technologique de la technologie et la difficulté qu’ont les profanes à forcer les créateurs d’algorithmes à rendre leurs hypothèses et processus transparents, et à permettre des audits de leurs algorithmes, en font un moyen trop facile de renforcer et de légitimer les biais. dynamique du pouvoir.
Une partie de son exposé, sur la façon dont les pratiques d’embauche renforcent les modèles de réussite existants, qui comportent souvent des biais, est conforme à notre article de 2007 du Conference Board Review, Fit v. Fitness
Les algorithmes sont partout. Ils trient et séparent les gagnants des perdants. Les gagnants obtiennent le poste ou une bonne offre de carte de crédit. Les perdants n’obtiennent même pas d’interview ou paient plus pour l’assurance. Nous sommes notés avec des formules secrètes que nous ne comprenons pas et qui n’ont souvent pas de système d’appel. Cela soulève la question: et si les algorithmes sont incorrects?
Pour construire un algorithme, vous avez besoin de deux choses: vous avez besoin de données, de ce qui s’est passé dans le passé et d’une définition du succès, de ce que vous recherchez et espérez souvent. Vous entraînez un algorithme en regardant, en découvrant. L’algorithme détermine ce qui est associé au succès. Quelle situation mène au succès?
En fait, tout le monde utilise des algorithmes. Ils ne les formalisent tout simplement pas en code écrit. Laisse moi te donner un exemple. J’utilise un algorithme tous les jours pour préparer un repas pour ma famille. Les données que j’utilise sont les ingrédients de ma cuisine, le temps dont je dispose, l’ambition que j’ai et je gère ces données. Je ne compte pas ces petits paquets de nouilles ramen comme nourriture.
Ma définition du succès est: un repas est réussi si mes enfants mangent des légumes. C’est très différent de si mon plus jeune fils était en charge. Il dirait que le succès, c’est s’il arrive à manger beaucoup de Nutella. Mais je peux choisir le succès. Je suis en charge. Mon opinion compte. C’est la première règle des algorithmes.
Les algorithmes sont des opinions intégrées dans le code. C’est vraiment différent de ce que vous pensez que la plupart des gens pensent des algorithmes. Ils pensent que les algorithmes sont objectifs et vrais et scientifiques. C’est une astuce marketing. C’est aussi une astuce marketing pour vous intimider avec des algorithmes, pour vous faire confiance et avoir peur des algorithmes parce que vous faites confiance et craignez les mathématiques. Beaucoup de choses peuvent mal tourner lorsque nous croyons aveuglément aux mégadonnées.
Voici Kiri Soares. Elle est directrice d’école secondaire à Brooklyn. En 2011, elle m’a dit que ses professeurs étaient notés avec un algorithme complexe et secret appelé le modèle à valeur ajoutée. » Je lui ai dit: «Eh bien, trouve la formule, montre-la-moi. Je vais vous l’expliquer. » Elle a dit: «Eh bien, j’ai essayé d’obtenir la formule, mais mon contact au ministère de l’Éducation m’a dit que c’était des mathématiques et que je ne comprendrais pas.»
Ça s’empire. Le New York Post a déposé une demande de Freedom of Information Act, a obtenu tous les noms des enseignants et toutes leurs notes et les a publiés comme un acte de honte pour les enseignants. Quand j’ai essayé d’obtenir les formules, le code source, par les mêmes moyens, on m’a dit que je ne pouvais pas. J’ai été refusée. J’ai découvert plus tard que personne à New York n’avait accès à cette formule. Personne ne l’a compris. Puis quelqu’un de très intelligent s’est impliqué, Gary Rubenstein. Il a trouvé 665 enseignants de ces données du New York Post qui avaient en fait deux scores. Cela pourrait arriver s’ils enseignaient les mathématiques de septième année et de huitième année. Il a décidé de les comploter. Chaque point représente un enseignant.
Cela n’aurait jamais dû être utilisé pour une évaluation individuelle. C’est presque un générateur de nombres aléatoires.
Mais c’était. Voici Sarah Wysocki. Elle a été licenciée, avec 205 autres enseignants, du district scolaire de Washington, DC, même si elle avait de bonnes recommandations de son directeur et des parents de ses enfants.
Je sais ce que beaucoup d’entre vous pensent, en particulier les scientifiques des données, les experts en IA ici. Vous pensez, eh bien, je ne ferais jamais un algorithme aussi incohérent. » Mais les algorithmes peuvent mal tourner, voire avoir des effets profondément destructeurs avec de bonnes intentions. Et alors qu’un avion mal conçu s’écrase sur la terre et que tout le monde le voit, un algorithme mal conçu peut durer longtemps, faisant des ravages en silence.
Voici Roger Ailes.
Il a fondé Fox News en 1996. Plus de 20 femmes se sont plaintes de harcèlement sexuel. Ils ont dit qu’ils n’étaient pas autorisés à réussir à Fox News. Il a été évincé l’année dernière, mais nous avons vu récemment que les problèmes persistaient. Cela soulève la question: que devrait faire Fox News pour retourner une autre feuille?
Et si ils remplaçaient leur processus d’embauche par un algorithme d’apprentissage automatique? Cela sonne bien, non? Pensez-y. Les données, quelles seraient les données? Un choix raisonnable serait les 21 dernières années de candidatures à Fox News. Raisonnable. Qu’en est-il de la définition du succès? Un choix raisonnable serait, eh bien, qui réussit à Fox News? Je suppose que quelqu’un qui, par exemple, est resté là pendant quatre ans et a été promu au moins une fois. Semble raisonnable. Et puis l’algorithme serait formé. Il serait formé à rechercher des personnes pour savoir ce qui a conduit au succès, quel type d’applications a conduit historiquement au succès selon cette définition. Réfléchissez maintenant à ce qui se passerait si nous appliquions cela à un bassin actuel de candidats. Cela filtrerait les femmes parce qu’elles ne ressemblent pas à des gens qui ont réussi dans le passé.
Les algorithmes ne rendent pas les choses justes si vous appliquez simplement et aveuglément des algorithmes. Ils ne rendent pas les choses justes. Ils répètent nos pratiques passées, nos schémas. Ils automatisent le statu quo. Ce serait formidable si nous avions un monde parfait, mais ce n’est pas le cas. Et j’ajouterai que la plupart des entreprises n’ont pas de poursuites embarrassantes, mais les scientifiques des données de ces entreprises sont invités à suivre les données, à se concentrer sur l’exactitude. Réfléchissez à ce que cela signifie. Parce que nous avons tous des préjugés, cela signifie qu’ils pourraient codifier le sexisme ou tout autre type de sectarisme.
Expérience de pensée, parce que je les aime: une société entièrement ségréguée – ségréguée racialement, toutes les villes, tous les quartiers et où nous n’envoyons la police que dans les quartiers minoritaires pour rechercher des délits. Les données sur les arrestations seraient très biaisées. Et si, en plus de cela, nous trouvions les scientifiques des données et les payions pour prédire où le prochain crime se produirait? Quartier minoritaire. Ou pour prédire qui serait le prochain criminel? Une minorité. Les scientifiques des données se vanteraient de la qualité et de la précision de leur modèle, et ils auraient raison.
Maintenant, la réalité n’est pas si drastique, mais nous avons de graves ségrégations dans de nombreuses villes et villages, et nous avons beaucoup de preuves de données biaisées sur la police et le système judiciaire. Et nous prédisons en fait des points chauds, des endroits où des crimes se produiront. Et nous prédisons, en fait, la criminalité individuelle, la criminalité des individus. L’organisation de presse ProPublica a récemment examiné l’un de ces algorithmes de risque de récidive, comme on les appelle, utilisés en Floride lors de la détermination de la peine par les juges. Bernard, à gauche, l’homme noir, a obtenu un 10 sur 10. Dylan, à droite, 3 sur 10. 10 sur 10, risque élevé. 3 sur 10, faible risque. Ils ont tous deux été amenés pour possession de drogue. Ils avaient tous les deux des disques, mais Dylan avait un crime, mais pas Bernard. Cela est important, car plus votre score est élevé, plus vous risquez une peine plus longue.
Que se passe-t-il? Blanchiment de données. C’est un processus par lequel les technologues cachent des vérités laides dans des algorithmes de boîte noire et les appellent objectifs; les appeler méritocratiques. Quand ils sont secrets, importants et destructeurs, j’ai inventé un terme pour ces algorithmes: armes de destruction mathématique. »
Ils sont partout et ce n’est pas une erreur. Ce sont des entreprises privées qui construisent des algorithmes privés à des fins privées. Même ceux dont j’ai parlé pour les enseignants et la police publique, ceux-ci ont été construits par des entreprises privées et vendus aux institutions gouvernementales. Ils l’appellent leur sauce secrète »- c’est pourquoi ils ne peuvent pas nous en parler. C’est aussi du pouvoir privé. Ils profitent de l’exercice de l’autorité de l’insondable. Maintenant, vous pourriez penser, puisque tout cela est privé et qu’il y a de la concurrence, peut-être que le marché libre résoudra ce problème. Ce ne sera pas le cas. Il y a beaucoup d’argent à gagner dans l’injustice.
De plus, nous ne sommes pas des agents rationnels économiques. Nous sommes tous partiaux. Nous sommes tous racistes et fanatiques d’une manière que nous souhaitons ne pas être, d’une manière que nous ne savons même pas. Nous le savons, cependant, dans l’ensemble, parce que les sociologues l’ont toujours démontré avec ces expériences qu’ils construisent, où ils envoient un tas de candidatures à des emplois, également qualifiés, mais certains ont des noms à consonance blanche et certains ont des noms à consonance noire, et c’est toujours décevant, les résultats – toujours.
Nous sommes donc ceux qui sont biaisés, et nous injectons ces biais dans les algorithmes en choisissant les données à collecter, comme si je choisissais de ne pas penser aux nouilles ramen – j’ai décidé que ce n’était pas pertinent. Mais en faisant confiance aux données qui reprennent réellement les pratiques passées et en choisissant la définition du succès, comment pouvons-nous nous attendre à ce que les algorithmes sortent indemnes? Nous ne pouvons pas. Nous devons les vérifier. Nous devons vérifier leur équité.
La bonne nouvelle est que nous pouvons vérifier leur équité. Les algorithmes peuvent être interrogés, et ils nous diront la vérité à chaque fois. Et nous pouvons les réparer. Nous pouvons les améliorer. J’appelle cela un audit algorithmique, et je vais vous l’expliquer.
Tout d’abord, vérifiez l’intégrité des données. Pour l’algorithme du risque de récidive dont j’ai parlé, une vérification de l’intégrité des données signifierait que nous devrions accepter le fait qu’aux États-Unis, les Blancs et les Noirs fument du pot au même rythme mais que les Noirs sont beaucoup plus susceptibles d’être arrêtés – quatre ou cinq fois plus de chances, selon la zone. À quoi ressemble ce parti pris dans d’autres catégories de délits et comment en tenir compte?
Deuxièmement, nous devons réfléchir à la définition du succès, vérifier cela. Rappelez-vous – avec l’algorithme d’embauche? Nous en avons parlé. Quelqu’un qui reste quatre ans et est promu une fois? Eh bien, c’est un employé qui réussit, mais c’est aussi un employé qui est soutenu par sa culture. Cela dit, cela peut aussi être assez biaisé. Nous devons séparer ces deux choses. Prenons l’exemple de l’audition de l’orchestre aveugle. C’est là que les personnes qui auditionnent sont derrière un drap. Ce à quoi je veux penser, c’est que les gens qui écoutent ont décidé ce qui est important et ils ont décidé ce qui ne l’est pas, et ils ne sont pas distraits par cela. Lorsque les auditions d’orchestre pour aveugles ont commencé, le nombre de femmes dans les orchestres a été multiplié par cinq.
Ensuite, nous devons considérer l’exactitude. C’est là que le modèle à valeur ajoutée pour les enseignants échouerait immédiatement. Aucun algorithme n’est parfait, bien sûr, nous devons donc considérer les erreurs de chaque algorithme. À quelle fréquence y a-t-il des erreurs et pour qui ce modèle échoue-t-il? Quel est le coût de cet échec?
Et enfin, nous devons considérer les effets à long terme des algorithmes, les boucles de rétroaction qui engendrent. Cela semble abstrait, mais imaginez si les ingénieurs de Facebook avaient envisagé cela avant de décider de nous montrer uniquement les choses que nos amis avaient publiées.
J’ai deux autres messages, un pour les scientifiques des données. Scientifiques des données: nous ne devons pas être les arbitres de la vérité. Nous devons être les traducteurs des discussions éthiques qui ont lieu dans une société plus large.