Skip to main content

L’IA générative affecte progressivement le contenu de Wikipédia.

Si vous avez déjà essayé d’utiliser des outils d’IA générative comme open AI et ChatGPT pour générer des informations, vous remarquerez qu’ils écrivent des textes crédibles, semblables à ceux d’un être humain. Mais le problème est qu’ils ont tendance à inclure des informations erronées.

Aujourd’hui, Wikipédia, l’encyclopédie mondiale qui fournit des informations fiables à des centaines de millions de personnes, utilise ces mêmes outils d’IA générative pour créer, résumer et mettre à jour des articles.

Dans cet article, nous expliquons comment l’IA générative affecte Wikipédia.

Qu’est-ce que l’IA générative ?

L’intelligence artificielle générative est une intelligence artificielle capable de créer de nouveaux contenus, dessins ou idées grâce à des algorithmes d’apprentissage automatique. Le processus commence par la saisie d’une invite qui peut être un texte, une image, une vidéo, un dessin ou toute autre donnée que l’intelligence artificielle peut analyser. L’IA génère alors un nouveau contenu en réponse à l’invite.

De nombreux rédacteurs de Wikipédia utilisent des outils d’IA générative tels que Open AI ChatGPT pour leurs articles. Malheureusement, ces outils d’IA ont tendance à « halluciner » et à produire de fausses citations, ce qui entraîne une désinformation.

Jimmy « Jimbo » Wales, fondateur de l’encyclopédie collaborative et de l’organisation à but non lucratif Wikimedia, a également reconnu que les informations fournies par l’IA générative ne sont pas entièrement fiables. Il a donné l’exemple d’une conversation qu’il a eue avec ChatGPT.

Jimmy a demandé au robot si un avion s’était écrasé sur l’Empire State Building. Non, un avion ne s’est pas écrasé sur l’Empire State Building », a répondu le robot. Cependant, ChatGPT a continué à expliquer comment un bombardier B25 s’était écrasé sur l’Empire State Building. Cette réponse va à l’encontre de celle qu’il avait donnée plus tôt.

L’IA générative et Wikipédia

Depuis plus de 20 ans, Wikipédia s’est toujours appuyée sur le contenu créé et édité par des bénévoles du monde entier. Aujourd’hui, le site est disponible en 334 langues et fournit des informations sur presque tous les sujets.

Toutefois, la généralisation des articles et des résumés générés par l’IA sur le site suscite de plus en plus d’inquiétudes. Ces résumés ont souvent l’air exacts mais, en y regardant de plus près, ils se révèlent complètement faux.

Outre les préoccupations liées à l’inexactitude des données, les wikipédiens ont également constaté que l’IA générative cite des sources et des documents universitaires qui n’existent pas.

Le risque pour Wikipédia est que les gens diminuent la qualité chaque fois qu’ils publient du contenu qui n’est pas vérifié.

Effets de l’IA générative sur Wikipédia

  1. Mauvaise information et désinformation

Des millions de personnes consultent Wikipédia chaque jour, à la recherche d’informations fiables sur des sujets qui affectent leur vie et façonnent leurs décisions. Cependant, le contenu généré par l’IA et publié sur la plateforme rend plus difficile l’identification d’un contenu qui semble réaliste et qui a été vérifié. Cela signifie que Wikipédia commence à perdre sa crédibilité auprès des internautes dès lors qu’ils constatent que le contenu les induit en erreur.

  1. Fausses citations

Les outils d’IA générative tels que Open AI ChatGPT récupèrent souvent des données provenant de différentes sources, mais ne citent pas ces dernières. Cela peut favoriser de nouveaux types de plagiat qui ignorent les droits des auteurs du contenu original. En outre, les citations ayant toujours été essentielles pour les chercheurs, cela impliquerait des travaux universitaires comportant des citations erronées.

  1. Manque d’empathie

L’IA générative est simplement une machine. Elle n’est pas capable d’éprouver des sentiments humains tels que l’empathie. Cela se répercute sur la manière dont elle rédige le contenu, qui est fade et dépourvu d’émotions. Ce manque d’empathie donne aux rédacteurs un double travail, car ils doivent réviser sans cesse les articles et les résumés pour qu’ils correspondent au ton du site.

  1. Problèmes pour les modèles futurs

De nombreuses entreprises spécialisées dans l’IA utilisent les données en libre accès de Wikipédia comme source d’entraînement pour leurs modèles d’IA gourmands en données. Si le contenu publié sur Wikipédia est généré par l’IA, les futurs modèles n’auront d’autre choix que de s’appuyer sur les informations fournies, qui peuvent être truffées de fausses informations et d’inexactitudes.

Un rapport indique que la fondation Wikimedia, qui héberge le site web de l’encyclopédie libre, envisage de créer des outils qui aideraient les bénévoles à détecter facilement les contenus générés par des robots ; cela n’exclut pas que les rédacteurs puissent avoir des problèmes de surveillance.

Conclusion

Bien qu’il y ait des spéculations selon lesquelles l’IA générative pourrait être la fin de Wikipédia, cette hypothèse est un peu exagérée.

Toutefois, au rythme où de plus en plus de contenus d’IA générative sont publiés sur Wikipédia, cette dernière pourrait perdre peu à peu sa crédibilité auprès de ses utilisateurs à l’échelle mondiale.

Thierry Lavergne

Co-fondateur et CTO de Winston AI. Avec une carrière de plus de 15 ans dans le développement de logiciels, je suis spécialisé dans l'intelligence artificielle et le "deep learning". Chez Winston AI, je dirige la vision technologique, en me concentrant sur le développement de solutions innovantes de détection de l'IA. Mon parcours professionnel inclut la création de solutions logicielles pour des entreprises de toutes tailles, et je suis passionné par l'idée de repousser les limites de la technologie de l'IA. J'aime écrire sur tout ce qui touche à l'IA et à la technologie.