Introduction
L’IA générative est extrêmement facile à utiliser, et une part de plus en plus importante du contenu publié de nos jours est écrite principalement par ChatGPT.
Si vous avez utilisé des agents conversationnels d’IA générative, vous conviendrez qu’ils peuvent effectuer la plupart des tâches lourdes rapidement et avec une grande précision. Cependant, cela crée plusieurs problèmes avec la prochaine génération de rédacteurs, les prochaines mises à jour des principaux LLM et bien d’autres questions.
Les agents conversationnels IA produisent un contenu de qualité moyenne contenant de fausses informations
Est-ce que quelqu’un saura écrire sans l’aide de robots conversationnels ? Le problème est que ChatGPT et tous les autres LLM ne vérifient pas leurs sources et l’exactitude de leurs informations et de leurs résultats. Plus le contenu généré par l’IA envahit le web, plus les informations qu’il produit sont inexactes. L’effet domino final est que la prochaine génération de LLM est formée sur un mélange de données humaines et de données synthétiques contenant un contenu de faible qualité et des faits inexacts, le plus souvent appelés « hallucinations ».
Les LLM’s doivent assimiler le contenu publié sur Internet pour former leurs nouveaux modèles et leurs mises à jour.
Toutes les grandes entreprises d’IA, y compris Open AI(ChatGPT), Anthropic et même Google, ont besoin d’explorer l’internet pour entraîner leur nouveau modèle. Cela va devenir extrêmement problématique pour plusieurs raisons. Les données disponibles sur l’internet sont complètement inondées de contenu généré par l’IA. De plus, la plupart des plateformes où les humains interagissent bloquent désormais tout type de scraping, ou font payer des sommes astronomiques pour utiliser leur API.
Les agents conversationnels d’IA sont-ils coincés en 2021 ?
ChatGPT est victime de son propre succès. Maintenant que l’outil peut écrire exceptionnellement bien, ses résultats ont inondé l’internet. Pour se tenir au courant des nouveaux contenus, il pourrait être amené à ingérer son propre contenu synthétique, ce qui rendrait son modèle moins susceptible d’imiter la façon dont les humains écrivent. C’est pourquoi de nombreux médias ont signalé que les résultats de GPT4 devenaient de plus en plus prévisibles… et de plus en plus mauvais.
Conclusion
En raison de leur nature, les LLM nécessitent d’énormes quantités de données de qualité pour leur formation. La qualité et la précision de ces LLM reposent sur les données à partir desquelles ils ont été formés. En alimentant les prochaines mises à jour et générations de chatbots d’IA avec un mélange de contenu humain et synthétique, nous nous attendons à ce que les résultats produits par les LLM diminuent jusqu’à ce qu’une solution soit trouvée. Les détecteurs d’IA, comme Winston AI, sont là pour aider les organisations à filtrer les contenus créés par l’homme et les écrits générés par l’IA.
FAQ
L’IA générative fait référence à des systèmes d’intelligence artificielle tels que ChatGPT ou Midjourney (pour les images) qui peuvent générer de nouveaux contenus. Le problème est qu’à mesure que l’utilisation de l’IA générative se généralise, de plus en plus de contenus en ligne sont générés par l’IA plutôt que par des humains. Cela pourrait « empoisonner » le web avec des informations de mauvaise qualité, inexactes ou biaisées, car l’IA ne vérifie pas les faits et n’évalue pas la véracité du contenu qu’elle crée.
Vous pouvez utiliser un détecteur de contenu d’IA comme Winston AI.
Il existe également quelques signes indiquant que le contenu peut être généré par l’IA :
-Il présente un style générique, sans grande originalité.
-Il manque de nuance, de complexité et de variabilité, caractéristiques de l’écriture humaine.
-Il semble résumer des informations provenant d’autres sources plutôt que de fournir une analyse originale.
-Le niveau d’écriture est trop constant, sans la variation naturelle des auteurs humains.
Les modèles d’IA sont formés sur de vastes ensembles de données de textes, d’images, etc. Si une grande partie des données utilisées pour l’entraînement est en fait du contenu synthétique de faible qualité provenant d’autres IA, cela pollue les données d’entraînement. Cela peut propager des biais, de fausses informations et le style générique de l’écriture de l’IA. Les nouveaux modèles d’IA imiteront ces défauts au lieu d’apprendre à générer un contenu de haute qualité, semblable à celui des humains.
Voici quelques solutions :
Utiliser un détecteur d’IA comme Winston AI.
S’appuyer davantage sur des ensembles de données de haute qualité dont on a vérifié qu’ils avaient été créés par l’homme.
Former des modèles pour identifier et éviter de régurgiter de fausses informations.
Tester régulièrement les modèles pour repérer les biais ou les inexactitudes qui s’y glissent.
Utiliser des techniques telles que l’apprentissage par renforcement pour encourager des résultats plus créatifs et variables.
C’est certainement quelque chose qui risque de se produire si des mesures ne sont pas prises pour vérifier les données d’entraînement et corriger les défauts qui s’y glissent. Mais grâce à des pratiques responsables en matière de données et à des innovations visant à rendre l’IA plus robuste, il est également possible d’améliorer la qualité, la précision et la fiabilité des systèmes d’IA au fil du temps. La communauté de l’IA prend ce problème au sérieux.