Facebook retire sa nouvelle “IA pour la science” parce qu’elle est cassée et terrible

Une capture d'écran du site Web de Galactica avec le titre

Image : Méta codé / Documentation

La société mère de Facebook, Meta, a publié une démonstration publique de son modèle d’IA de “connaissance scientifique” après que des universitaires aient montré qu’il générait des données fausses et trompeuses lors de l’examen de toutes les catégories de recherche.

Publié plus tôt cette semaine, la société a décrit Galactica comme un modèle de langage d’IA qui peut “stocker, intégrer et raisonner avec des connaissances scientifiques” – résumant des articles de recherche, résolvant des équations et effectuant une gamme d’autres tâches scientifiques utiles. Mais les scientifiques et les universitaires ont rapidement découvert que les résumés du système d’IA généraient une quantité choquante de désinformation, notamment en citant de vrais auteurs pour des articles de recherche qui n’existaient pas.

“Dans tous les cas, c’était faux ou biaisé, mais cela sonnait juste et autoritaire”, a déclaré Michael Black, directeur de l’Institut Max Planck pour les systèmes intelligents. Un fil sur Twitter après avoir utilisé l’outil. “Je pense que c’est dangereux.”

Le sujet de Black couvre les divers cas dans lesquels Galactica a produit des textes scientifiques trompeurs ou simplement faux. Dans plusieurs cas, l’IA produit des articles qui semblent faire autorité et convaincants, mais qui ne sont pas étayés par des recherches scientifiques réelles. Dans certains cas, les citations incluent même les noms des véritables auteurs, mais renvoient à des référentiels Github et à des documents de recherche qui n’existent pas.

Les autres montré Galactica ne renvoyait pas de résultats pour un large éventail de sujets de recherche, probablement en raison des filtres automatisés de l’IA. Willie Agnew, chercheur en informatique à l’Université de Washington, a noté que des requêtes telles que “théorie queer”, “racisme” et “SIDA” ne donnaient aucun résultat.

Tôt jeudi matin, Meta a annulé la démo de Galactica. Lorsqu’elle a été contactée pour commenter, la société a renvoyé Motherboard à une déclaration publiée par Papers With Code, le projet responsable du système.

“Nous apprécions les commentaires que nous avons reçus du public jusqu’à présent et avons suspendu la démo pour le moment”, a déclaré la société. Il a écrit sur Twitter. “Nos modèles sont disponibles pour les chercheurs qui souhaitent en savoir plus sur le travail et reproduire les résultats dans un article.”

Certains membres du personnel de Meta ont également laissé entendre que la démo avait été supprimée en réponse aux critiques.

“La démo de Galactica est actuellement hors ligne” il a tweeté Yann LeCun, scientifique en chef de l’IA chez Meta. « Il n’est plus possible de s’amuser à en abuser accidentellement. Heureux?”

Ce n’est pas la première fois que Facebook doit s’expliquer après avoir publié une IA horriblement biaisée. En août, la société a publié une démo pour un chatbot appelé BlenderBot, qui a fait des déclarations “offensantes et fausses” lors de conversations étranges et contre nature. La société a également publié un grand modèle de langage appelé OPT-175B, qui, selon les chercheurs, était “très sujet” au racisme et aux préjugés, à l’instar de systèmes similaires comme le GPT-3 d’OpenAI.

Galactica est également un grand modèle de langage, un type de modèle d’apprentissage automatique connu pour produire un texte hautement crédible qui donne l’impression d’avoir été écrit par des humains. Alors que les résultats de ces systèmes sont souvent impressionnants, Galactica est un autre exemple de la façon dont la capacité à générer un langage humain crédible ne signifie pas nécessairement que le système comprend réellement son contenu. Certains chercheurs se demandent si de grands modèles de langage doivent être utilisés pour prendre des décisions, soulignant que leur complexité époustouflante rend pratiquement impossible pour les scientifiques de les vérifier ou même d’expliquer comment ils fonctionnent.

C’est évidemment un gros problème, surtout quand il s’agit de la recherche scientifique. Les articles scientifiques s’appuient sur des méthodologies rigoureuses que les systèmes d’IA générant du texte ne peuvent pas comprendre clairement, du moins pas encore. Black s’inquiète des conséquences du lancement d’un système comme Galactica, qui, selon lui, pourrait “déclencher une ère de profonde fraude scientifique”.

“Il propose une science qui fait autorité et qui n’est pas basée sur la méthode scientifique”, a écrit Black sur Twitter. “Cela crée une pseudoscience basée sur les propriétés statistiques de l’*écriture* de la science. L’écriture scientifique grammaticale n’est pas la même chose que l’écriture scientifique. Mais il sera difficile de le distinguer.”

Leave a Reply

Your email address will not be published. Required fields are marked *