Aller au contenu

Biais algorithmique

Un article de Wikipédia, l'encyclopédie libre.
Organigramme représentant l'algorithme derrière un moteur de recommandation.

Un biais algorithmique est le fait que le résultat d'un algorithme ne soit pas neutre, loyal ou équitable, pour des raisons inconscientes ou délibérées de la part de ses auteurs.

Un biais algorithmique peut se produire lorsque les données utilisées pour entraîner un algorithme d'apprentissage automatique reflètent un sous échantillon non représentatif et non exhaustif de la population générale, et donc potentiellement des caractéristiques ou des valeurs implicites des humains impliqués dans la collecte, la sélection, ou l'utilisation de ces données[1]. Les biais algorithmiques ont été identifiés et critiqués pour leur impact sur les résultats des moteurs de recherche[2], les services de réseautage social[3], le respect de la vie privée[4], et le profilage racial[5]. Ainsi, un biais peut être raciste, sexiste, culturel, générationel, social ou autre[6].

Le biais algorithmique peut être involontaire et ne procède pas nécessairement d’une volonté délibérée des concepteurs. Par conséquent, il est important d'avoir conscience que la conception et l'usage d'un algorithme peut reproduire ou amplifier certains biais. Cette problématique pose la question du manque de rétrocontrôle des concepteurs, programmeurs et utilisateurs d'algorithmes[7].

Définitions

[modifier | modifier le code]

Un algorithme est biaisé lorsque son résultat n'est pas neutre, loyal ou équitable. Cette définition repose donc sur trois notions : la neutralité, la loyauté et l'équité. Les biais algorithmiques conduisent à des discriminations[8].

Équité algorithmique

[modifier | modifier le code]

Pour éviter que les algorithmes ne soient biaisés par absence d’équité, les chercheurs[9] préconisent de développer des algorithmes qui respectent des principes d'équité[8],[10].

Cette approche suppose de définir l'équité. Corbett-Davies et Goel 2018 distinguent trois définitions[11] :

Hamilton (2016) distingue aussi l’équité individuelle et l’équité de groupe. L'équité individuelle garantit que les individus aux caractéristiques similaires soient pris en compte de la même manière tandis que l'équité de groupe garantit que les personnes de groupes différents soient prises en compte différemment[12].

Des mesures ont été préconisées pour quantifier l'équité d'un algorithme vis-à-vis d'individus ou de groupes[13].

Transparence et Loyauté algorithmique

[modifier | modifier le code]

L'algorithme et son responsable doivent communiquer et informer les utilisateurs sur son fonctionnement. L'algorithme doit précisément "dire ce qu'il fait et faire ce qu'il dit" sans renforcer ou reproduire une quelconque discrimination[14],[15].

Neutralité algorithmique

[modifier | modifier le code]

La neutralité des algorithmes est l'idée selon laquelle les systèmes informatiques automatisés, comme les algorithmes, les réseaux de neurones et les systèmes décisionnels ne doivent pas introduire de biais ou de discrimination envers certaines personnes ou groupes de personnes [16]. Cela signifie qu’ils doivent fonctionner de manière impartiale et traiter toutes les personnes de manière équitable, indépendamment de leur origine ethnique, leur genre, leur orientation sexuelle, leur religion, leur race. C'est un idéal à atteindre, et cela nécessite de lutter contre les biais et les discriminations algorithmiques au moyen de techniques comme l’évaluation des biais, la diversité des données, la transparence des algorithmes et l’interprétabilité pour s’assurer que les algorithmes sont équitables et non discriminatoires.

Les biais de l'algorithme peuvent résulter de biais cognitifs du data scientist, de biais statistiques liés notamment aux données d'apprentissage ou de biais économiques[Quoi ?][8]. Ils affectent la justesse des décisions des machines.

Biais des data scientists

[modifier | modifier le code]

Les data scientists qui développent des algorithmes peuvent être sujets à de nombreux biais cognitifs. Parmi ceux-ci, le biais du mouton de Panurge consiste à utiliser une modélisation « consensuelle » sans s'assurer de sa pertinence dans un contexte donné. Le biais de confirmation consiste à favoriser la vision du monde de la conceptrice sans prendre en compte les données qui ne vont pas dans son sens[8]. Le biais social provient d’une influence extérieure au développeur[17]. Le biais de présentation, quant à lui, se réfère au design d’une interface qui incite à faire un choix, par exemple l'acceptation des cookies sur un site internet plutôt que leur refus[17],[18][source secondaire souhaitée].

Les data scientists qui développent des algorithmes ne sont pas représentatifs de la population générale. Une étude de l'institut AI Now de 2018 souligne que seuls 15% du personnel de recherche en intelligence artificielle chez Facebook et 10% chez Google sont des femmes[19],[20].

La surreprésentation des hommes blancs parmi les data scientists et la sous-représentation des minorités peut conduire les data scientists à ne pas assez prendre en compte les biais et les discriminations potentiels. D'Ignazio et Klein 2020 appellent cela le « risque de privilège » (privilege hazard)[20]. Les algorithmes seraient alors biaisés du fait de leurs concepteurs et pourraient être discriminants, voir racistes.

Biais statistiques

[modifier | modifier le code]

Les biais statistiques peuvent provenir des données contenues en entrée de l'algorithme ou de l'algorithme lui même[8]. Les résultats ne fourniront donc pas une représentation exacte de la population et seront erronés.

En 2015, un algorithme d'évaluation de curriculum vitæ développé par Amazon a été retiré quand on s'est aperçu qu'il discriminait fortement[pourquoi ?] les CV féminins[8],[21].

Les biais peuvent aussi venir de la méthode statistique. Ils sont issus des données fournies en entrée de l’algorithmique en raison de leur qualité ou représentativité, ou du modèle prédictif. Par exemple, le biais de variable omise découle de l’absence de variables pertinentes dans un modèle pouvant rendre ce modèle inutilisable. Dans le biais d'échantillonnage, l’échantillon du test n’est pas représentatif de la réalité. Le biais de sélection se produit quand la sélection de données est erronée et que le travail s’opère avec un sous-ensemble spécifique du groupe et non un sous-ensemble aléatoire. Le biais d'endogénéité implique que les variables endogènes sont déterminées au sein du modèle et sont corrélées avec le terme d’erreur, ce qui conduit à l’estimation de paramètres biaisés[8]. Le biais temporel apparaît lorsque le comportement de l’utilisateur change très rapidement, par exemple dans l’effet d’accoutumance à une publicité[17]. Le biais d’évaluation met en cause le modèle évalué selon une référence inappropriée[17]. Le biais d’agrégation implique un modèle jugé sur sa performance globale[17]. Le biais historique consiste à répéter un biais qui était déjà présent[17].

Biais économiques

[modifier | modifier le code]

Les biais économiques touchent les marchés, ils sont liés aux incitations économiques émanant d’un objectif financier par une entreprise qui se développe. Un algorithme peut donc être fondé sur une stratégie commerciale constituant volontairement ou involontairement un biais. Ainsi l’optimisation du rapport coût-efficacité de la diffusion d’offres d’emploi, qui vise à minimiser les coûts de recrutement pour une entreprise, a mené à discriminer les femmes[22],[8],[23].

Les biais économiques sont en partie la conséquence des économies que l'investisseur souhaite faire dans la réalisation du projet.

Biais algorithmiques par domaine d'application

[modifier | modifier le code]

Plongements lexicaux

[modifier | modifier le code]

Les modèles de word embeddings (plongements lexicaux) peuvent reproduire les biais psychologiques humains.

Caliskan, Bryson et Narayanan 2017 étudient le modèle de plongement vectoriel GloVe (en) et montrent que l'on retrouve des associations implicites entre des mots porteuses de préjugés. Ils proposent une méthode de mesure des préjugés inspirée du test d'association implicite[24].

Reconnaissance faciale

[modifier | modifier le code]

Selon Buolamwini et Gebru 2018, les femmes sont moins facilement reconnues par les logiciels de reconnaissance faciale d'IBM, Microsoft et Face ++. Sur 1270 portraits officiels de personnalités politiques qui leur ont été soumis, Face ++ a vu juste pour 99,3% des hommes, mais seulement 78,7% des femmes. Ainsi, 95,9% des erreurs de l'entreprise concernaient des femmes[25],[26].

« Les hommes à la peau claire sont surreprésentés [dans les bases de données des exemples], et aussi les personnes à la peau claire de manière générale, utilisées par les systèmes de reconnaissance faciale[27]. » Ces différences peuvent entraîner des erreurs telles que l’identification erronée d’un acheteur en tant que voleur à l’étalage. En 2019, une étude réalisée par le Government Accountability Office des États-Unis sur 189 algorithmes de reconnaissance faciale utilisés dans le milieu commercial a conclu que les hommes blancs avaient le plus faible taux de faux positifs, tandis que celui des femmes noires était près de dix fois supérieur.

Algorithmes de recommandation

[modifier | modifier le code]

Les algorithmes de recommandation peuvent conduire à des résultats biaisés vers certains contenus.

Par exemple, les travaux de rétro-ingénierie sur l'algorithme de recommandation de YouTube mené par Guillaume Chaslot et l'association Algotransparency montrent que l'algorithme a tendance à favoriser les contenus à caractère complotistes[28].

Agents conversationnels

[modifier | modifier le code]

En 2016, l'agent conversationnel Tay développé par Microsoft et déployé sur Twitter a du être retiré après 24 heures à la suite de la tenue de propos à caractère raciste[29].

Justice prédictive

[modifier | modifier le code]

Dans certains états américains, la justice des libertés et de la détention appuie ses décisions de libération anticipée des détenus, sur des algorithmes d'évaluation du risque ; on appelle cela la justice prédictive. En 2016, une enquête de l'ONG ProPublica a mis en évidence que l'algorithme de la société Northpointe, bien que ses concepteurs affirment ne pas prendre directement en compte la race, avait un biais raciste[30],[31].

Lutte contre le biais algorithmique

[modifier | modifier le code]

Il existe plusieurs possibilités pour lutter contre le biais algorithmique. Selon TechCrunch [réf. nécessaire] il faudrait créer des bases de données partagées et règlementées qui empêcheraient les individus de manipuler les données. En effet, en admettant que l'intelligence coïncide avec l'absence de préjugés [réf. nécessaire], les algorithmes ne sont pas encore assez intelligents, donc exempts de préjugés, pour se corriger eux-mêmes. En attendant qu'ils en soient capables il faut donc que des humains, conscients de ce qu'est un préjugé, les contrôlent afin d'éviter qu'ils n'aggravent les biais potentiellement déjà présents dans les données avec lesquelles ils sont entraînés[32] [réf. souhaitée].

L’une des principales difficultés de la lutte contre le biais algorithmique est l’opacité du fonctionnement des algorithmes[33]. Cette opacité peut avoir quatre origines[34] ; le secret intentionnellement mis en place par les entreprises qui veulent protéger leur propriété intellectuelle, l’inculture des utilisateurs et des chercheurs, mais aussi le fait qu'avec leur évolution au cours du temps certains algorithmes deviennent illisibles du fait de leur complexité et enfin le gigantisme de certains algorithmes, notamment ceux des grands services en lignes[35]. Si certains chercheurs ont essayé de développer des méthodes pour améliorer la transparence[36] d’autres, comme Shoshana Zuboff et Ruha Benjamin affirment que les algorithmes ne peuvent pas être approchés comme des objets isolés mais plutôt comme faisant partie de grand assemblage culturel et socio-technique[37]

Audit des algorithmes et rétro ingénierie

[modifier | modifier le code]

Pour documenter les biais algorithmiques, il faut pouvoir les auditer. Pour cela, Angwin et al. 2016 ont collecté des données et développé leur propre modèle pour être en mesure de mettre en évidence, le biais de l'algorithme d'évaluation des risques de récidive[31].

Théorie critique et approches ethnographiques

[modifier | modifier le code]

D'après la sociologue Angèle Christin, il existe, avec les audits, deux autres façons d’aborder le problème du biais algorithmique[38]. La première est l’approche historique et culturelle. Elle consiste en une reconsidération des évènements de biais algorithmique dans des séquences plus longues en s’appuyant sur la sociologie critique. Les algorithmes reproduiraient des structures préexistantes de discrimination[39], surveillance[40] et de marchandisation[41]. Le seconde est l’approche ethnographique. Elle permet d’un coté de déterminer quelles forces structurelles permettent l’émergence de biais et de l’autre coté, considérer comment les algorithmes sont influencés par leurs usages quotidiens. Angèle Christin propose trois méthodes dans le cadre de cette approche pour étudier les algorithmes. “Algorithmic refraction” consiste en l’examen des reconfigurations qui ont lieu pendant l’usage des algorithmes et leur interaction avec le public et les institutions. “Algorithmic comparaison” désigne l’analyse de différents usages d’un même algorithme dans différents domaines pour comprendre l’émergence de biais dans les différences d’applications et de fonctionnement. Finalement, “algorithmic triangulation” repose sur l’usage d’algorithmes secondaires pour recueillir des données sur l’algorithme étudié.

Régulations

[modifier | modifier le code]

États-Unis

[modifier | modifier le code]

Les États-Unis n'ont pas de législation d'ensemble qui régule les biais algorithmiques. Le traitement de cette question peut se faire à l'échelle fédérale ou à l'échelle d'un état, et varie selon les secteurs, selon l'utilisation qui en est faite et selon l'industrie ou l'administration concernée. En 2017, la ville de New York a voté une loi instituant une commission contrôlant l'utilisation des algorithmes dans la ville[42]

Union européenne

[modifier | modifier le code]

L’Union européenne n’a pas de législation d’ensemble qui régule les biais algorithmiques, mais plusieurs normes éthiques sur l’utilisation de l’intelligence artificielle sont adoptées en faveur de la protection des droits de l’homme et de sa vie privée. Cependant,l’AI Act, un règlement européen sur l’intelligence artificielle publié le [43], intègre la prévention des biais algorithmiques pouvant altérer l’équité des décisions judiciaires et protège les droits fondamentaux.

Dans une tribune publiée sur le site de la revue Data & Society, la chercheuse Kinjal Dave critique l'usage du terme biais pour désigner les préjudices des algorithmes. Selon elle, le terme de biais issu de la psychologie sociale renvoie à une imperfection de l'individu alors que les algorithmes constitueraient selon elle des forces institutionnelles[44].

D'Ignazio et Klein 2020 reprennent aussi cette critique. Pour elles, parler de biais algorithmique et laisser croire que l'on pourrait corriger ces biais relèverait de la diversion. Plutôt que de parler de biais, elles préfèrent parler d'oppression[31].

Bibliographie

[modifier | modifier le code]

Filmographie

[modifier | modifier le code]
  • 2020 : Coded bias réalisé par Shalini Kantayya[45]

Notes et références

[modifier | modifier le code]
  1. (en) Helen Nissenbaum, « How computer systems embody values », Computer, vol. 34, no 3,‎ , p. 120–119 (DOI 10.1109/2.910905, lire en ligne, consulté le ).
  2. (en) Lucas Introna et Helen Nissenbaum, « Defining the Web: the politics of search engines », Computer, vol. 33, no 1,‎ , p. 54–62 (DOI 10.1109/2.816269, lire en ligne, consulté le ).
  3. (en) Kate Crawford, « Can an Algorithm be Agonistic? Ten Scenes from Life in Calculated Publics », Science, Technology, & Human Values, vol. 41, no 1,‎ , p. 77–92 (DOI 10.1177/0162243915589635).
  4. (en) Zeynep Tufekci, « Algorithmic Harms beyond Facebook and Google: Emergent Challenges of Computational Agency », Colorado Technology Law Journal Symposium Essays, vol. 13,‎ , p. 203–216 (lire en ligne, consulté le ).
  5. (en) Lisa Nakamura, The new media of surveillance, Londres, Routledge, , 149–162 p. (ISBN 978-0-415-56812-8).
  6. (en) Laura Sydell, « Can Computers Be Racist? The Human-Like Bias Of Algorithms », sur NPR.org, National Public Radio / All Things Considered (consulté le ).
  7. (en) Paul Lewis, « ‘Our minds can be hijacked’: the tech insiders who fear a smartphone dystopia », Daily,‎ .
  8. a b c d e f g et h Patrice Bertail, David Bounie, Stephan Clémençon et Patrick Waelbroeck, « Algorithmes : biais, discrimination et équité » [PDF], sur telecom-paris.fr, (consulté le ).
  9. Pedreshi 2008.
  10. (en) Pedreshi, « Discrimination-aware data mining », Proceedings of the 14th ACM SIGKDD international conference on Knowledge discovery and data mining,‎ (DOI 10.1145/1401890.1401959, lire en ligne, consulté le ).
  11. (en) Sam Corbett-Davies et Sharad Goel, « The Measure and Mismeasure of Fairness: A Critical Review of Fair Machine Learning », Arxiv.org,‎ (lire en ligne).
  12. Evan Hamilton, Benchmarking Four Approaches to Fairness-Aware Machine Learning, Haverford College Computer Science, 2016
  13. (en) Alessandro Castelnovo, Riccardo Crupi, Greta Greco et Daniele Regoli, « A clarification of the nuances in the fairness metrics landscape », Scientific Reports, vol. 12, no 1,‎ , p. 4209 (ISSN 2045-2322, DOI 10.1038/s41598-022-07939-1, lire en ligne, consulté le ).
  14. Christine Chevret-Castellani et Sarah Labelle, « Transparence et loyauté, deux motifs de la régulation des algorithmes », Terminal. Technologie de l'information, culture & société, no 124,‎ (ISSN 0997-5551, DOI 10.4000/terminal.4064, lire en ligne, consulté le ).
  15. « Loyauté et vigilance : de nouveaux principes pour les algorithmes de recommandation ? », sur www.editions-legislatives.fr, (consulté le ).
  16. Lise BUJON, « Blog Cyberjustice - Les algorithmes sont- ils neutres ? », sur Blog Cyberjustice, (consulté le ).
  17. a b c d e et f Gaétan Raoul, Biais dans l’IA : une cartographie nécessaire pour tenter de les corriger, LeMagIT, 9 mars 2021.
  18. Quantmetry, « Biais algorithmiques ».
  19. (en) Sarah West Myers, Meredith Whittaker et Kate Crawford. “Discriminating Systems: Gender, Race and Power in AI,” AI Now Institute, 2019, https://ainowinstitute.org/discriminatingsystems.pdf.
  20. a et b (en) Catherine D'Ignazio et Lauren F. Klein, « 1. The Power Chapter », dans Data Feminism, MIT Press, (lire en ligne).
  21. (en) Jeffrey Dastin, « Amazon scraps secret AI recruiting tool that showed bias against women », sur Reuters, (consulté le ).
  22. (en) Anja Lambrecht et Catherine Tucker, « Algorithmic discrimination ? : apparent algorithmic bias in the serving of stem ads », Unpublished manuscript, Massachusetts Institute of Technology,‎ .
  23. Institut Montaigne, « Algorithmes : contrôle des biais S.V.P. » [PDF], .
  24. (en) Aylin Caliskan, Joanna J. Bryson et Arvind Narayanan, « Semantics derived automatically from language corpora contain human-like biases », Science,‎ (DOI 10.1126/science.aal4230, lire en ligne).
  25. (en) Joy Buolamwini et Timnit Gebru, « Gender Shades: Intersectional Accuracy Disparities inCommercial Gender Classification – MIT Media Lab », Proceedings of Machine Learning Research,‎ (lire en ligne).
  26. (en) « Gender Shades », sur gendershades.org (consulté le ).
  27. Perrine Signoret, « Une étude démontre les biais de la reconnaissance faciale, plus efficace sur les hommes blancs », sur lemonde.fr, (consulté le ).
  28. (en) Paul Lewis et Erin McCormick, « How an ex-YouTube insider investigated its secret algorithm », The Guardian,‎ (lire en ligne).
  29. (en) James Vincent, « Twitter taught Microsoft’s friendly AI chatbot to be a racist asshole in less than a day », The Verge,‎ (lire en ligne).
  30. (en) Julia Angwin, Jeff Larson, Surya Mattu et Lauren Kirchner, « Machine Bias », ProPublica,‎ (lire en ligne)
  31. a b et c (en) Catherine D'Ignazio et Lauren F. Klein, « 2. Collect, Analyze, Imagine, Teach », dans Data Feminism, MIT Press, (lire en ligne).
  32. « Comment lutter contre les biais algorithmiques ? », sur Microsoft RSLN, (consulté le ).
  33. Frank Pasquale, The Black Box Society, Harvard University Press, (ISBN 978-0-674-73606-1, lire en ligne).
  34. Jenna Burrell, « How the machine ‘thinks’: Understanding opacity in machine learning algorithms », Big Data & Society, vol. 3, no 1,‎ , p. 205395171562251 (ISSN 2053-9517 et 2053-9517, DOI 10.1177/2053951715622512, lire en ligne, consulté le ).
  35. (en-US) « Google Is 2 Billion Lines of Code—And It's All in One Place », Wired,‎ (ISSN 1059-1028, lire en ligne, consulté le ).
  36. Diakopoulos, N et Friedler, S, « How to hold algorithms accountable », MIT Technology Review,‎ .
  37. Nick Seaver, « Algorithms as culture: Some tactics for the ethnography of algorithmic systems », Big Data & Society, vol. 4, no 2,‎ , p. 205395171773810 (ISSN 2053-9517 et 2053-9517, DOI 10.1177/2053951717738104, lire en ligne, consulté le ).
  38. (en) Angèle Christin, « The ethnographer and the algorithm: beyond the black box », Theory and Society, vol. 49, nos 5-6,‎ , p. 897–918 (ISSN 0304-2421 et 1573-7853, DOI 10.1007/s11186-020-09411-3, lire en ligne, consulté le ).
  39. (en-US) Ruha Benjamin, Race after technology : abolitionist tools for the New Jim Code, (ISBN 978-1-5095-2640-6, 1-5095-2640-4 et 978-1-5095-2639-0, OCLC 1078415817, lire en ligne).
  40. 祖博夫 (Zuboff, Shoshana), 1951- 文字作者, 監控資本主義時代 = The age of surveillance capitalism : the fight for a human future at the new frontier of power (ISBN 978-957-13-8116-9, 957-13-8116-0 et 978-957-13-8117-6, OCLC 1199122574, lire en ligne).
  41. David Beer, The Data Gaze: Capitalism, Power and Perception, SAGE Publications Ltd, (ISBN 978-1-5264-3692-4 et 978-1-5264-8534-2, lire en ligne).
  42. (en) Julia Powles, « New York City’s Bold, Flawed Attempt to Make Algorithms Accountable », The New Yorker,‎ (ISSN 0028-792X, lire en ligne, consulté le ).
  43. l’AI Act.
  44. (en) Kinjal Dave, « Systemic Algorithmic Harms », Data & Society,‎ (lire en ligne).
  45. (en) « Filmmaker — CODED BIAS », sur CODED BIAS (consulté le ).

Articles connexes

[modifier | modifier le code]