Skip to main content

Im Rahmen unserer kontinuierlichen Bemühungen, die Erkennung von KI-generierten Inhalten voranzutreiben, freuen wir uns, Model 4.0 mit dem Codenamen „Curia“ vorzustellen . Diese Version ist ein bedeutender Fortschritt in unserem Engagement für Transparenz, Präzision und kontinuierliche Verbesserung bei der Erkennung von von Menschen geschriebenen und KI-generierten Texten.


Einführung

Die Geschwindigkeit, mit der sich KI-generierte Inhalte entwickeln, ist beispiellos. Mit den rasanten Fortschritten bei den generativen Modellen ist die Herausforderung, menschliche und von KI erstellte Texte genau zu erkennen und zu unterscheiden, ebenso schnell gewachsen. In diesem Umfeld sind robuste und transparente Erkennungsmechanismen unerlässlich.

Heute stellen wir mit Stolz das Modell 4.0 („Curia“) vor, das auf der Grundlage unserer früheren Erfolge aufbaut und mit verbesserter Genauigkeit und Transparenz entwickelt wurde. In diesem Beitrag stellen wir unsere Methodik vor, präsentieren detaillierte Leistungskennzahlen und bekräftigen unser Engagement für Offenheit bei der Erkennung von KI-Inhalten. Bemerkenswert ist, dass v4.0 im Vergleich zu früheren Iterationen in einer Metrik eine etwas geringere KI-Genauigkeit aufweist, dafür aber eine ausgewogenere Leistung bei Klassifizierungsaufgaben liefert und ein deutlich verbessertes R² bei Regressionsaufgaben erzielt.


Engagement für Transparenz bei der KI-Erkennung

Vollständige Offenlegung

Das Herzstück unseres Entwicklungsprozesses ist unsere Verpflichtung zu vollständiger Transparenz. Wir geben unsere Genauigkeitsraten, Testmethoden und die Feinheiten unserer Datensätze offen bekannt, um einen neuen Branchenstandard zu setzen. Unser Ziel ist es, mit jeder neuen Version klare, datengestützte Einblicke in die Leistung unseres Modells zu geben.

Dataset-Übersicht

Die wichtigsten Details des Datensatzes umfassen:

  • Proben insgesamt: 10,000
  • Sprache: Englisch
  • Erstellungsdatum: 2025-02-05 11:23:26

Dieser vielfältige und sorgfältig geprüfte Datensatz bildet das Rückgrat unseres rigorosen Bewertungsprozesses.


Materialien und Methodik

Datenerhebung

Unser Datensatz umfasst eine breite Palette von Texten, die von Menschen geschrieben wurden und aus seriösen Quellen stammen, um eine reichhaltige und abwechslungsreiche linguistische Basis zu gewährleisten. Jede Probe wurde so ausgewählt, dass sie verschiedene Schreibstile und Kontexte abdeckt, was für eine zuverlässige Erkennung unerlässlich ist.

KI-generierte Inhalte und LLM-Tests

Für die Generierung von KI-Texten haben wir fortschrittliche generative Modelle verwendet, um Muster zu erstellen, die realen KI-Ausgaben sehr ähnlich sind. Wichtig ist, dass das Modell 4.0 („Curia“) mit den Ergebnissen einer Reihe von führenden großen Sprachmodellen (LLMs) trainiert und getestet wurde, darunter:

  • Claude 1
  • Claude 2
  • Claude 3 opus
  • Claude Sonett 3.5
  • Gpt 3.5 turbo
  • Gpt-4
  • Gpt-4o
  • Gpt-4o mini
  • Mistral Nemo
  • Zwilling 1.5 Blitzlicht
  • Zwilling 1.5 Pro
  • Llama 3.2B

Dieser umfassende Ansatz stellt sicher, dass unsere Erkennungsfunktionen robust und auf ein breites Spektrum von KI-generierten Inhalten anwendbar sind.

Datenüberprüfung

Um die Integrität unserer Bewertung zu gewährleisten, haben wir den Datensatz rigoros validiert:

  • Ausschluss von Trainingsdaten: Sicherstellen, dass keine der Testproben Teil der Trainingsphase war.
  • Qualitätssicherung: Eine Kombination aus manuellen und automatischen Kontrollen, um die Echtheit und Konsistenz jeder Probe zu überprüfen.

Bewertungsmetriken

Wir haben Modell 4.0 („Curia“) anhand einer umfassenden Reihe von Metriken bewertet, die sowohl die Klassifizierungs- als auch die Regressionsleistung beurteilen.

Metriken zur Klassifizierung

Diese Metriken helfen uns zu bestimmen, wie gut das Modell Texte in diskrete Klassen einteilt (z.B. KI-generiert vs. von Menschen geschrieben). Zu den wichtigsten Klassifizierungsmetriken gehören:

  • Genauigkeit
  • Präzision
  • Rückruf
  • F1 Ergebnis

Regressionsmetriken

Neben der Klassifizierung umfasst unsere Bewertung auch die Regressionsanalyse. In unserer speziellen Anwendung wird die Regression verwendet, um die Menge des KI-Textes in einem bestimmten Text zu ermitteln. Dies beinhaltet die Vorhersage einer kontinuierlichen numerischen Punktzahl, die den Anteil oder das Ausmaß von KI-generierten Inhalten widerspiegelt, anstatt einen Text lediglich als KI oder menschlich generiert zu klassifizieren.

Um die Leistung dieser kontinuierlichen Vorhersagen zu messen, verwenden wir die folgenden Regressionsmetriken:

  • Genauigkeit (innerhalb einer definierten Fehlerspanne von 0,1)
  • Mittlerer absoluter Fehler (MAE)
  • Mittlerer quadratischer Fehler (MSE)
  • Mittlerer quadratischer Wurzelfehler (RMSE)
  • R-Quadrat (R²)

Die Fehlerspanne von 0,1 definiert den akzeptablen Bereich der Abweichung und stellt sicher, dass unsere Regressionsvorhersagen sowohl präzise als auch zuverlässig sind.


Ergebnisse und Analyse

Gesamtleistung

Das Modell 4.0 („Curia“) zeigt eine außergewöhnliche Leistung sowohl bei Klassifizierungs- als auch bei Regressionsaufgaben:

MetrischWert
Klassifizierung Gesamtgenauigkeit99.95%
R-Quadrat (R²)99.08%

Detaillierte Metriken

Regressionsmetriken

MetrischWert
R-Quadrat (R²)0.9908
Mittlerer absoluter Fehler (MAE)0.0120
Mittlerer quadratischer Fehler (MSE)0.0006
Mittlerer quadratischer Wurzelfehler (RMSE)0.0241

Metriken zur Klassifizierung

MetrischWert
Gesamtpräzision0.9993
Gesamtrückruf0.9998
F1 Gesamtnote0.9995
KI-Erkennungsgenauigkeit0.999263
Genauigkeit bei der Erkennung von Menschen0.9997

Erweitertes Prediction Mapping

Als Reaktion auf das Feedback unserer Kunden haben wir unser Vorhersage-Mapping-System verfeinert. Unser neues Farbkodierungsschema für die satzweisen Vorhersagen ist jetzt viel näher an der Gesamtbewertung. Diese Verbesserung beseitigt frühere Diskrepanzen und stellt sicher, dass die satzweisen Vorhersagen die Gesamtbewertung der Menge des von der KI generierten Textes genau widerspiegeln – ein wichtiges Anliegen, das einige Kunden in der Vergangenheit geäußert haben.


Vergleich der Versionen

Unser Weg der kontinuierlichen Verbesserung wird deutlich, wenn Sie das Modell 4.0 („Curia“) mit seinen Vorgängerversionen vergleichen. Nachstehend finden Sie eine Übersichtstabelle, die die Klassifizierungsleistung unserer jüngsten Versionen hervorhebt:

VersionAI-GenauigkeitMenschliche AkkuratesseGesamtnote
2.099.6%98.4%99.0%
3.0 „Luka“99.98%99.5%99.74%
4.0 „Kurie“99.92%99.97%99.95%

Während v4.0 („Curia“) im Vergleich zu v3.0 „Luka“ eine etwas geringere KI-Genauigkeit aufweist (99,93% vs. 99,98%), kompensiert sie dies durch eine deutlich höhere Genauigkeit bei der Erkennung von menschlichem Text (99,98% vs. 99,5%) und eine ausgewogenere Gesamtbewertung (99,95% vs. 99,74%). Darüber hinaus macht Curia mit einem R² von 0,9908 einen großen Sprung in der Regressionsleistung und kann so die Menge des KI-Textes in einem bestimmten Dokument genau quantifizieren. Diese ausgewogene Leistung über mehrere Metriken hinweg ist ein entscheidender Fortschritt gegenüber früheren Iterationen.


Schlussfolgerung

Das Modell 4.0 („Curia“) stellt unsere bisher fortschrittlichste Leistung bei der Erkennung von KI-Inhalten dar. Mit seiner hohen Klassifizierungsgenauigkeit, seiner robusten Regressionsleistung bei der Quantifizierung von KI-Text und seiner verfeinerten Vorhersagezuordnung setzt Curia neue Maßstäbe für die Branche. Wir bemühen uns weiterhin um kontinuierliche Verbesserung und Transparenz in unseren technologischen Bemühungen.

Zukunftsaussichten

Mit Blick auf die Zukunft werden wir uns auf Folgendes konzentrieren:

  • Weitere Verbesserungen: Kontinuierliche Verfeinerung der Erkennungsfunktionen.
  • Erweiterung der Datensätze: Integration von noch vielfältigeren und anspruchsvolleren Texten.
  • Einbindung der Gemeinschaft: Einbeziehung des Feedbacks der Gemeinschaft und Wahrung der Transparenz, um zukünftige Innovationen voranzutreiben.

FAQ

F: Was ist Modell 4.0 („Curia“)?
A: Curia ist unser neuestes KI-Erkennungsmodell, das entwickelt wurde, um mit noch nie dagewesener Präzision zwischen KI-generierten und von Menschen geschriebenen Texten zu unterscheiden.

F: Wie wurde der Datensatz für die Tests kuratiert?
A: Der Datensatz, der 10.000 Beispiele umfasst, enthält sowohl von Menschen geschriebene als auch von KI generierte Texte. Er wurde sorgfältig geprüft und enthält keine Trainingsdaten, die während der Modellentwicklung verwendet wurden.

F: Welche LLMs waren an der Ausbildung und den Tests beteiligt?
A: Unser Modell wurde mit den Ergebnissen einer breiten Palette von LLMs trainiert und getestet, darunter Claude 1, Claude 2, Claude 3 opus, Claude Sonnet 3.5, Gpt 3.5 turbo, Gpt-4, Gpt-4o, GPT-4o mini, Mistral Nemo, Gemini 1.5 Flash, Gemini 1.5 Pro und Llama 3.2B.

F: Was zeigen die Regressionsmetriken an, und was bedeutet Regression in diesem Zusammenhang?
A: Die Regression ist eine statistische Methode zur Vorhersage kontinuierlicher numerischer Werte. In unserer Anwendung wird die Regression speziell eingesetzt, um die Menge an AI-Text innerhalb eines bestimmten Textes. Die Regressionsmetriken – Mittlerer absoluter Fehler (MAE), Mittlerer quadratischer Fehler (MSE), Roter mittlerer quadratischer Fehler (RMSE) und R² – messen, wie genau unser Modell diese Menge vorhersagt. Der verbesserte R²-Wert von 0,9823 zeigt an, dass unsere Vorhersagen mit dem tatsächlichen Anteil der KI-generierten Inhalte gut übereinstimmen.

F: Wie ist Curia im Vergleich zu früheren Modellen?
A: Im Vergleich zu früheren Versionen weist Curia eine etwas geringere KI-Genauigkeit als v3.0 „Luka“ auf, erreicht aber eine ausgewogenere Klassifizierungsleistung mit einer deutlich höheren Genauigkeit bei der Erkennung von menschlichem Text und einer höheren Gesamtpunktzahl. Darüber hinaus machen die verbesserten Regressionsfähigkeiten zur Quantifizierung der KI-Inhalte das Programm zu einem robusten und zuverlässigen Werkzeug für die Inhaltserkennung.

F: Welche zukünftigen Entwicklungen können wir erwarten?
A: Wir haben uns zu kontinuierlicher Innovation verpflichtet. Zukünftige Updates werden sich auf die weitere Feinabstimmung der Erkennungsfunktionen, die Erweiterung unserer Datensätze und die Einbeziehung von Nutzerfeedback zur Verbesserung konzentrieren.

Thierry Lavergne

Mitbegründer und Chief Technology Officer von Winston AI. Mit einer Karriere von über 15 Jahren in der Softwareentwicklung habe ich mich auf künstliche Intelligenz und Deep Learning spezialisiert. Bei Winston AI leite ich die technologische Vision und konzentriere mich auf die Entwicklung innovativer KI-Erkennungslösungen. Zu meinen früheren Erfahrungen gehört die Entwicklung von Softwarelösungen für Unternehmen aller Größenordnungen, und ich bin leidenschaftlich bemüht, die Grenzen der KI-Technologie zu erweitern. Ich liebe es, über alles zu schreiben, was mit KI und Technologie zu tun hat.