Skip to main content

En nuestra continua misión de avanzar en la detección de contenidos generados por IA, nos complace presentar el Modelo 4.0, cuyo nombre en clave es «Curia». Esta versión supone un importante salto adelante en nuestro compromiso con la transparencia, la precisión y la mejora continua en la identificación de textos escritos por humanos y generados por IA.


Introducción

El ritmo al que evoluciona el contenido generado por la IA no tiene precedentes. Con los rápidos avances en los modelos generativos, el reto de detectar con precisión y diferenciar entre textos creados por humanos y por IA ha crecido con la misma rapidez. En este panorama, es esencial disponer de mecanismos de detección sólidos y transparentes.

Hoy presentamos con orgullo el Modelo 4.0 («Curia»), construido sobre la base de nuestros éxitos anteriores y diseñado con mayor precisión y transparencia. En este post, esbozamos nuestra metodología, presentamos métricas de rendimiento detalladas y reforzamos nuestro compromiso con la apertura en la detección de contenidos de IA. En particular, aunque la v4.0 muestra una precisión general de la IA ligeramente inferior a la de las iteraciones anteriores en una métrica, ofrece un rendimiento más equilibrado en las tareas de clasificación y logra un R² significativamente mejorado en las tareas de regresión.


Compromiso con la transparencia en la detección de IA

Divulgación completa

En el centro de nuestro proceso de desarrollo está el compromiso con la transparencia total. Compartimos abiertamente nuestros índices de precisión, metodologías de prueba y las complejidades de nuestros conjuntos de datos para establecer un nuevo estándar en el sector. Con cada lanzamiento, nuestro objetivo es proporcionar una visión clara y respaldada por datos sobre el rendimiento de nuestro modelo.

Visión general del conjunto de datos

Los detalles clave del conjunto de datos incluyen:

  • Total de muestras: 10,000
  • Idioma: Inglés
  • Fecha de generación: 2025-02-05 11:23:26

Este conjunto de datos diverso y meticulosamente examinado constituye la columna vertebral de nuestro riguroso proceso de evaluación.


Materiales y metodología

Recogida de datos

Nuestro conjunto de datos comprende una amplia gama de textos escritos por humanos, recopilados de fuentes acreditadas, lo que garantiza una base lingüística rica y variada. Cada muestra se seleccionó para cubrir diversos estilos de escritura y contextos, lo que es esencial para una detección sólida.

Contenidos generados por IA y pruebas LLM

Para generar textos de IA, empleamos modelos generativos avanzados para crear muestras que imitan fielmente los resultados de la IA del mundo real. Es importante destacar que el Modelo 4.0 («Curia») se entrenó y se probó con los resultados de una serie de grandes modelos lingüísticos (LLM), entre los que se incluyen:

  • Claude 1
  • Claude 2
  • Claude 3 opus
  • Claude Soneto 3.5
  • Gpt 3.5 turbo
  • Gpt-4
  • Gpt-4o
  • Gpt-4o mini
  • Mistral Nemo
  • Géminis 1.5 Flash
  • Géminis 1.5 Pro
  • Llama 3.2B

Este enfoque integral garantiza que nuestras capacidades de detección sean sólidas y aplicables a un espectro diverso de contenidos generados por IA.

Validación de datos

Para mantener la integridad de nuestra evaluación, validamos rigurosamente el conjunto de datos mediante:

  • Exclusión de los datos de entrenamiento: Asegurarse de que ninguna de las muestras de prueba formaba parte de la fase de entrenamiento.
  • Garantía de calidad: Combinación de controles manuales y automatizados para verificar la autenticidad y coherencia de cada muestra.

Métricas de evaluación

Evaluamos el Modelo 4.0 («Curia») utilizando un conjunto completo de métricas que valoran tanto el rendimiento de la clasificación como el de la regresión.

Métricas de clasificación

Estas métricas nos ayudan a determinar lo bien que el modelo clasifica los textos en clases discretas (por ejemplo, generados por IA frente a escritos por humanos). Las métricas de clasificación clave incluyen:

  • Precisión
  • Precisión
  • Retirada
  • Puntuación F1

Métricas de regresión

Además de la clasificación, nuestra evaluación incluye el análisis de regresión. En nuestra aplicación concreta, la regresión se utiliza para detectar la cantidad de texto de IA presente en un texto determinado. Esto implica predecir una puntuación numérica continua que refleje la proporción o el alcance del contenido generado por IA, en lugar de limitarse a clasificar un texto como generado por IA o por humanos.

Para medir el rendimiento de estas predicciones continuas, utilizamos las siguientes métricas de regresión:

  • Precisión (dentro de un margen de error definido de 0,1)
  • Error medio absoluto (MAE)
  • Error cuadrático medio (ECM)
  • Error cuadrático medio (RMSE)
  • R-cuadrado (R²)

El margen de error de 0,1 define el rango aceptable de desviación, garantizando que nuestras predicciones de regresión sean precisas y fiables.


Resultados y análisis

Rendimiento global

El modelo 4.0 («Curia») demuestra un rendimiento excepcional tanto en tareas de clasificación como de regresión:

MétricaValor
Clasificación Precisión global99.95%
R-cuadrado (R²)99.08%

Métricas detalladas

Métricas de regresión

MétricaValor
R-cuadrado (R²)0.9908
Error medio absoluto (MAE)0.0120
Error cuadrático medio (ECM)0.0006
Error cuadrático medio (RMSE)0.0241

Métricas de clasificación

MétricaValor
Precisión global0.9993
Recuperación global0.9998
Puntuación global F10.9995
Precisión de detección de IA0.999263
Precisión de la detección humana0.9997

Mapa de predicción mejorado

En respuesta a los comentarios de los clientes, hemos perfeccionado nuestro sistema de mapeo de predicciones. Nuestro nuevo esquema de codificación por colores para las predicciones por frase está ahora mucho más cerca de la puntuación global. Esta mejora resuelve las discrepancias anteriores, garantizando que las predicciones por frase reflejen con precisión la valoración global de la cantidad de texto generado por la IA, una preocupación clave planteada por algunos clientes en el pasado.


Comparación de versiones

Nuestra trayectoria de mejora continua se aprecia claramente al comparar el Modelo 4.0 («Curia») con sus predecesores. A continuación se muestra una tabla resumen que destaca el rendimiento de clasificación de nuestras versiones recientes:

VersiónPrecisión de la IAPrecisión humanaPuntuación global
2.099.6%98.4%99.0%
3,0 «Luka»99.98%99.5%99.74%
4,0 «Curia»99.92%99.97%99.95%

Aunque la v4.0 («Curia») muestra una precisión de IA ligeramente inferior en comparación con la v3.0 «Luka» (99,93% frente a 99,98%), lo compensa con una precisión de detección de texto humano significativamente superior (99,98% frente a 99,5%) y una puntuación global más equilibrada (99,95% frente a 99,74%). Además, Curia introduce un salto importante en el rendimiento de la regresión con un R² de 0,9908, lo que le permite cuantificar con precisión la cantidad de texto de IA dentro de un documento determinado. Este rendimiento equilibrado en múltiples métricas supone un avance clave respecto a las iteraciones anteriores.


Conclusión

El Modelo 4.0 («Curia») representa nuestro esfuerzo más avanzado hasta la fecha en la detección de contenidos de IA. Con su alta precisión de clasificación, su sólido rendimiento de regresión en la cuantificación del texto de IA y su refinado mapeo de predicción, Curia establece un nuevo punto de referencia para el sector. Seguimos dedicados a la mejora continua y la transparencia en nuestros esfuerzos tecnológicos.

Perspectivas de futuro

De cara al futuro, nos centraremos en

  • Otras mejoras: Perfeccionamiento continuo de las capacidades de detección.
  • Ampliación de los conjuntos de datos: Integrando textos aún más diversos y desafiantes.
  • Participación de la comunidad: Incorporar las opiniones de la comunidad y mantener la transparencia para impulsar futuras innovaciones.

PREGUNTAS FRECUENTES

P: ¿Qué es el Modelo 4.0 («Curia»)?
R: Curia es nuestro último modelo de detección de IA, diseñado para distinguir con precisión sin precedentes entre textos generados por IA y textos escritos por humanos.

P: ¿Cómo se elaboró el conjunto de datos para las pruebas?
R: El conjunto de datos, que consta de 10.000 muestras, incluye textos escritos por humanos y textos generados por IA. Se ha examinado cuidadosamente y excluye los datos de entrenamiento utilizados durante el desarrollo del modelo.

P: ¿Qué LLM participaron en la formación y las pruebas?
R: Nuestro modelo se ha entrenado y probado con resultados de una amplia gama de LLM, como Claude 1, Claude 2, Claude 3 opus, Claude Sonnet 3.5, Gpt 3.5 turbo, Gpt-4, Gpt-4o, GPT-4o mini, Mistral Nemo, Gemini 1.5 Flash, Gemini 1.5 Pro y Llama 3.2B.

P: ¿Qué indican las métricas de regresión y qué es la regresión en este contexto?
R: La regresión es un método estadístico utilizado para predecir valores numéricos continuos. En nuestra aplicación, la regresión se emplea específicamente para detectar la cantidad de texto AI dentro de un texto determinado. Las métricas de regresión – Error Medio Absoluto (MAE), Error Medio Cuadrático (MSE), Error Medio Cuadrático (RMSE) y R-cuadrado (R²)- miden la precisión con la que nuestro modelo predice esta cantidad. El valor R² mejorado de 0,9823 indica que nuestras predicciones se ajustan estrechamente a la proporción real de contenido generado por IA.

P: ¿Cómo se compara Curia con los modelos anteriores?
R: En comparación con versiones anteriores, Curia muestra una precisión de la IA ligeramente inferior a la v3.0 «Luka», pero consigue un rendimiento de clasificación más equilibrado, con una precisión de detección de texto humano y una puntuación global significativamente superiores. Además, sus capacidades mejoradas de regresión para cuantificar el contenido de la IA la convierten en una herramienta sólida y fiable para la detección de contenidos.

P: ¿Qué desarrollos futuros podemos esperar?
R: Estamos comprometidos con la innovación continua. Las futuras actualizaciones se centrarán en afinar aún más las capacidades de detección, ampliar nuestros conjuntos de datos e incorporar los comentarios de los usuarios para impulsar mejoras.

Thierry Lavergne

Cofundador y Director de Tecnología de Winston AI. Con una carrera de más de 15 años en el desarrollo de software, estoy especializado en Inteligencia Artificial y aprendizaje profundo. En Winston AI, lidero la visión tecnológica, centrándome en el desarrollo de soluciones innovadoras de detección de IA. Mi experiencia previa incluye la creación de soluciones de software para empresas de todos los tamaños, y me apasiona ampliar los límites de la tecnología de IA. Me encanta escribir sobre todo lo relacionado con la IA y la tecnología.