Skip to main content

Dans le cadre de notre mission permanente visant à faire progresser la détection de contenu généré par l’IA, nous sommes ravis de vous présenter le modèle 4.0, dont le nom de code est « Curia ». Cette version marque une avancée significative dans notre engagement en faveur de la transparence, de la précision et de l’amélioration continue de l’identification des textes rédigés par des humains ou générés par l’IA.


Introduction

Le rythme auquel évolue le contenu généré par l’IA est sans précédent. Avec les progrès rapides des modèles génératifs, le défi de détecter avec précision et de différencier les textes créés par l’homme de ceux créés par l’IA s’est accru tout aussi rapidement. Dans ce contexte, des mécanismes de détection robustes et transparents sont essentiels.

Aujourd’hui, nous sommes fiers de dévoiler le modèle 4.0 (« Curia »), qui s’appuie sur les fondements de nos succès précédents et qui a été conçu pour améliorer la précision et la transparence. Dans ce billet, nous décrivons notre méthodologie, présentons des mesures de performance détaillées et renforçons notre engagement en faveur de l’ouverture dans le domaine de la détection de contenu par l’IA. Notamment, alors que la v4.0 montre une précision globale de l’IA légèrement inférieure à celle des itérations précédentes dans une mesure, elle offre une performance plus équilibrée dans les tâches de classification et atteint un R² significativement amélioré dans les tâches de régression.


Engagement en faveur de la transparence dans la détection de l’IA

Divulgation complète

Au cœur de notre processus de développement se trouve un engagement de transparence totale. Nous partageons ouvertement nos taux de précision, nos méthodologies de test et les subtilités de nos ensembles de données afin d’établir une nouvelle norme dans le secteur. À chaque nouvelle version, notre objectif est de fournir des informations claires, étayées par des données, sur les performances de notre modèle.

Aperçu de l’ensemble de données

Les principaux détails de l’ensemble de données sont les suivants :

  • Nombre total d’échantillons : 10,000
  • Langue: Anglais
  • Date de génération : 2025-02-05 11:23:26

Cet ensemble de données diversifiées et méticuleusement contrôlées constitue l’épine dorsale de notre processus d’évaluation rigoureux.


Matériel et méthodologie

Collecte des données

Notre ensemble de données comprend un large éventail de textes écrits par des êtres humains et recueillis auprès de sources réputées, ce qui garantit une base linguistique riche et variée. Chaque échantillon a été sélectionné de manière à couvrir différents styles et contextes d’écriture, ce qui est essentiel pour une détection robuste.

Contenu généré par l’IA et tests LLM

Pour générer des textes d’IA, nous avons utilisé des modèles génératifs avancés afin de créer des échantillons qui reproduisent fidèlement les résultats de l’IA dans le monde réel. Il est important de noter que le modèle 4.0 (« Curia ») a été entraîné et testé à l’aide des résultats d’une variété de grands modèles de langage (LLM) de premier plan, y compris :

  • Claude 1
  • Claude 2
  • Claude 3 opus
  • Claude Sonnet 3.5
  • Gpt 3.5 turbo
  • Gpt-4
  • Gpt-4o
  • Gpt-4o mini
  • Mistral Nemo
  • Gemini 1.5 Flash
  • Gemini 1.5 Pro
  • Lamas 3.2B

Cette approche globale garantit que nos capacités de détection sont solides et applicables à un large éventail de contenus générés par l’IA.

Validation des données

Pour maintenir l’intégrité de notre évaluation, nous avons rigoureusement validé l’ensemble des données par le biais de :

  • Exclusion des données de formation : Veiller à ce qu’aucun des échantillons testés ne fasse partie de la phase de formation.
  • Assurance qualité : Combinaison de contrôles manuels et automatisés pour vérifier l’authenticité et la cohérence de chaque échantillon.

Mesures d’évaluation

Nous avons évalué le modèle 4.0 (« Curia ») à l’aide d’un ensemble complet de paramètres qui évaluent les performances en matière de classification et de régression.

Métriques de classification

Ces mesures nous aident à déterminer dans quelle mesure le modèle classe les textes dans des catégories distinctes (par exemple, textes générés par l’IA ou écrits par l’homme). Les principales mesures de classification sont les suivantes :

  • Précision
  • Précision
  • Rappel
  • Score F1

Métriques de régression

Outre la classification, notre évaluation comprend une analyse de régression. Dans notre application spécifique, la régression est utilisée pour détecter la quantité de texte IA présent dans un texte donné. Il s’agit de prédire un score numérique continu qui reflète la proportion ou l’étendue du contenu généré par l’IA, plutôt que de simplement classer un texte comme étant généré par l’IA ou par l’homme.

Pour mesurer la performance de ces prédictions continues, nous utilisons les mesures de régression suivantes :

  • Précision (dans une marge d’erreur définie de 0,1)
  • Erreur absolue moyenne (MAE)
  • Erreur quadratique moyenne (EQM)
  • Erreur quadratique moyenne (RMSE)
  • R au carré (R²)

La marge d’erreur de 0,1 définit la fourchette d’écart acceptable, garantissant que nos prédictions de régression sont à la fois précises et fiables.


Résultats et analyse

Performance globale

Le modèle 4.0 (« Curia ») démontre des performances exceptionnelles dans les tâches de classification et de régression :

MétriqueValeur
Classification Précision globale99.95%
R au carré (R²)99.08%

Mesures détaillées

Métriques de régression

MétriqueValeur
R au carré (R²)0.9908
Erreur absolue moyenne (MAE)0.0120
Erreur quadratique moyenne (EQM)0.0006
Erreur quadratique moyenne (RMSE)0.0241

Métriques de classification

MétriqueValeur
Précision globale0.9993
Rappel global0.9998
Score global F10.9995
Précision de la détection de l’IA0.999263
Précision de la détection humaine0.9997

Cartographie améliorée des prévisions

En réponse aux commentaires de nos clients, nous avons affiné notre système de cartographie des prédictions. Notre nouveau code de couleurs pour les prédictions par phrase est désormais beaucoup plus proche de la note globale. Cette amélioration résout les divergences antérieures et garantit que les prédictions par phrase reflètent correctement l’évaluation globale de la quantité de texte générée par l’IA, une préoccupation majeure soulevée par certains clients dans le passé.


Comparaison des versions

La comparaison du modèle 4.0 (« Curia ») avec ses prédécesseurs témoigne clairement de notre démarche d’amélioration continue. Vous trouverez ci-dessous un tableau récapitulatif mettant en évidence les performances de classification de nos versions récentes :

VersionPrécision de l’IAPrécision humaineNote globale
2.099.6%98.4%99.0%
3.0 « Luka »99.98%99.5%99.74%
4.0 « Curie »99.92%99.97%99.95%

Si la v4.0 (« Curia ») affiche une précision de l’IA légèrement inférieure à celle de la v3.0 « Luka » (99,93 % contre 99,98 %), elle compense par une précision de détection du texte humain nettement supérieure (99,98 % contre 99,5 %) et un score global plus équilibré (99,95 % contre 99,74 %). En outre, Curia présente un bond important en termes de performances de régression avec un R² de 0,9908, ce qui lui permet de quantifier avec précision la quantité de texte AI dans un document donné. Cette performance équilibrée entre plusieurs mesures constitue une avancée majeure par rapport aux itérations précédentes.


Conclusion

Le modèle 4.0 (« Curia ») représente notre effort le plus avancé à ce jour en matière de détection de contenu d’IA. Grâce à sa précision de classification élevée, à ses performances de régression robustes dans la quantification des textes d’IA et à sa cartographie de prédiction raffinée, Curia établit une nouvelle référence pour l’industrie. Nous restons attachés à l’amélioration continue et à la transparence dans nos efforts technologiques.

Perspectives d’avenir

À l’avenir, nous nous concentrerons sur les points suivants

  • Améliorations supplémentaires : Amélioration continue des capacités de détection.
  • Élargissement des ensembles de données : Intégrer des textes encore plus variés et plus difficiles.
  • Engagement de la communauté : Intégrer le retour d’information de la communauté et maintenir la transparence pour stimuler les innovations futures.

FAQ

Q : Qu’est-ce que le modèle 4.0 (« Curia ») ?
R : Curia est notre dernier modèle de détection de l’IA, conçu pour distinguer avec une précision sans précédent les textes générés par l’IA des textes écrits par des humains.

Q : Comment l’ensemble des données pour les tests a-t-il été constitué ?
R : L’ensemble de données, qui comprend 10 000 échantillons, inclut à la fois des textes écrits par des humains et des textes générés par l’IA. Il a été soigneusement vérifié et exclut toutes les données d’entraînement utilisées lors de l’élaboration du modèle.

Q : Quels sont les responsables de l’apprentissage tout au long de la vie qui ont participé à la formation et aux tests ?
R : Notre modèle a été entraîné et testé en utilisant les résultats d’un large éventail de LLM, notamment Claude 1, Claude 2, Claude 3 opus, Claude Sonnet 3.5, Gpt 3.5 turbo, Gpt-4, Gpt-4o, GPT-4o mini, Mistral Nemo, Gemini 1.5 Flash, Gemini 1.5 Pro et Llama 3.2B.

Q : Qu’indiquent les mesures de régression et qu’est-ce que la régression dans ce contexte ?
R : La régression est une méthode statistique utilisée pour prédire des valeurs numériques continues. Dans notre application, la régression est spécifiquement employée pour détecter la quantité de texte AI dans un texte donné. Les mesures de régression – erreur absolue moyenne (MAE), erreur quadratique moyenne (MSE), erreur quadratique moyenne (RMSE) et R² – mesurent la précision avec laquelle notre modèle prédit cette quantité. La valeur R² améliorée de 0,9823 indique que nos prédictions correspondent étroitement à la proportion réelle de contenu généré par l’IA.

Q : Comment Curia se compare-t-il aux modèles précédents ?
R : Par rapport aux versions précédentes, Curia présente une précision d’IA légèrement inférieure à celle de la v3.0 « Luka », mais atteint une performance de classification plus équilibrée avec une précision de détection de texte humain et un score global significativement plus élevés. En outre, ses capacités de régression améliorées pour quantifier le contenu de l’IA en font un outil robuste et fiable pour la détection de contenu.

Q : Quels sont les développements futurs auxquels nous pouvons nous attendre ?
R : Nous nous engageons à innover en permanence. Les prochaines mises à jour seront axées sur le perfectionnement des capacités de détection, l’élargissement de nos ensembles de données et l’intégration des commentaires des utilisateurs pour apporter des améliorations.

Thierry Lavergne

Co-fondateur et CTO de Winston AI. Avec une carrière de plus de 15 ans dans le développement de logiciels, je suis spécialisé dans l'intelligence artificielle et le "deep learning". Chez Winston AI, je dirige la vision technologique, en me concentrant sur le développement de solutions innovantes de détection de l'IA. Mon parcours professionnel inclut la création de solutions logicielles pour des entreprises de toutes tailles, et je suis passionné par l'idée de repousser les limites de la technologie de l'IA. J'aime écrire sur tout ce qui touche à l'IA et à la technologie.