Quand l’IA doit dépasser les données

publié le 18 octobre 2024

1 - En 2003, l’IA conversationnelle de Microsoft insultait les utilisateurs.

2 - Des moteurs de recommandation de salaires ignorent les diplômes des femmes pour les sous-payer.

3 - Au début de l’épidémie de Covid-19, les prédictions de temps de séjour hospitalier sous-estimaient systématiquement celui-ci.

Ces trois problèmes naissent tous d’une même défaillance : des moteurs prédictifs, des intelligences artificielles, qui ont appris des biais.

L’IA conversationnelle malpolie répliquait ses textes d’entraînement, dont certains proviennent de forums Internet où la politesse se perd parfois de vue.

L’IA médicale ne prenait en compte que les hospitalisations finies et comme l’épidémie venait de commencer, seuls les patients atteints de formes bénignes étaient déjà sortis, alors que les plus gravement malades restaient hospitalisés.

Pour obtenir une IA qui ne raconte pas n’importe quoi, il faut alors « corriger » les biais. Le problème des fenêtres d’observation trop courtes est un classique des statistiques médicales : il faut mettre plus d’importance sur les quelques individus malades depuis longtemps. Une solution similaire est utilisée pour améliorer les IA conversationnelles : pondérer les sources de texte d’entraînement en fonction de l’écart au comportement désiré.

La suite ici Les Echos - Chronique par Gaël Varoquaux publié le 18 oct. 2024 à 16:00