En nuestra continua misión de avanzar en la detección de contenidos generados por IA, nos complace presentar el Modelo 4.0, cuyo nombre en clave es «Curia». Esta versión supone un importante salto adelante en nuestro compromiso con la transparencia, la precisión y la mejora continua en la identificación de textos escritos por humanos y generados por IA.
Introducción
El ritmo al que evoluciona el contenido generado por la IA no tiene precedentes. Con los rápidos avances en los modelos generativos, el reto de detectar con precisión y diferenciar entre textos creados por humanos y por IA ha crecido con la misma rapidez. En este panorama, es esencial disponer de mecanismos de detección sólidos y transparentes.
Hoy presentamos con orgullo el Modelo 4.0 («Curia»), construido sobre la base de nuestros éxitos anteriores y diseñado con mayor precisión y transparencia. En este post, esbozamos nuestra metodología, presentamos métricas de rendimiento detalladas y reforzamos nuestro compromiso con la apertura en la detección de contenidos de IA. En particular, aunque la v4.0 muestra una precisión general de la IA ligeramente inferior a la de las iteraciones anteriores en una métrica, ofrece un rendimiento más equilibrado en las tareas de clasificación y logra un R² significativamente mejorado en las tareas de regresión.
Compromiso con la transparencia en la detección de IA
Divulgación completa
En el centro de nuestro proceso de desarrollo está el compromiso con la transparencia total. Compartimos abiertamente nuestros índices de precisión, metodologías de prueba y las complejidades de nuestros conjuntos de datos para establecer un nuevo estándar en el sector. Con cada lanzamiento, nuestro objetivo es proporcionar una visión clara y respaldada por datos sobre el rendimiento de nuestro modelo.
Visión general del conjunto de datos
Los detalles clave del conjunto de datos incluyen:
- Total de muestras: 10,000
- Idioma: Inglés
- Fecha de generación: 2025-02-05 11:23:26
Este conjunto de datos diverso y meticulosamente examinado constituye la columna vertebral de nuestro riguroso proceso de evaluación.
Materiales y metodología
Recogida de datos
Nuestro conjunto de datos comprende una amplia gama de textos escritos por humanos, recopilados de fuentes acreditadas, lo que garantiza una base lingüística rica y variada. Cada muestra se seleccionó para cubrir diversos estilos de escritura y contextos, lo que es esencial para una detección sólida.
Contenidos generados por IA y pruebas LLM
Para generar textos de IA, empleamos modelos generativos avanzados para crear muestras que imitan fielmente los resultados de la IA del mundo real. Es importante destacar que el Modelo 4.0 («Curia») se entrenó y se probó con los resultados de una serie de grandes modelos lingüísticos (LLM), entre los que se incluyen:
- Claude 1
- Claude 2
- Claude 3 opus
- Claude Soneto 3.5
- Gpt 3.5 turbo
- Gpt-4
- Gpt-4o
- Gpt-4o mini
- Mistral Nemo
- Géminis 1.5 Flash
- Géminis 1.5 Pro
- Llama 3.2B
Este enfoque integral garantiza que nuestras capacidades de detección sean sólidas y aplicables a un espectro diverso de contenidos generados por IA.
Validación de datos
Para mantener la integridad de nuestra evaluación, validamos rigurosamente el conjunto de datos mediante:
- Exclusión de los datos de entrenamiento: Asegurarse de que ninguna de las muestras de prueba formaba parte de la fase de entrenamiento.
- Garantía de calidad: Combinación de controles manuales y automatizados para verificar la autenticidad y coherencia de cada muestra.
Métricas de evaluación
Evaluamos el Modelo 4.0 («Curia») utilizando un conjunto completo de métricas que valoran tanto el rendimiento de la clasificación como el de la regresión.
Métricas de clasificación
Estas métricas nos ayudan a determinar lo bien que el modelo clasifica los textos en clases discretas (por ejemplo, generados por IA frente a escritos por humanos). Las métricas de clasificación clave incluyen:
- Precisión
- Precisión
- Retirada
- Puntuación F1
Métricas de regresión
Además de la clasificación, nuestra evaluación incluye el análisis de regresión. En nuestra aplicación concreta, la regresión se utiliza para detectar la
Para medir el rendimiento de estas predicciones continuas, utilizamos las siguientes métricas de regresión:
- Precisión (dentro de un margen de error definido de 0,1)
- Error medio absoluto (MAE)
- Error cuadrático medio (ECM)
- Error cuadrático medio (RMSE)
- R-cuadrado (R²)
El margen de error de 0,1 define el rango aceptable de desviación, garantizando que nuestras predicciones de regresión sean precisas y fiables.
Resultados y análisis
Rendimiento global
El modelo 4.0 («Curia») demuestra un rendimiento excepcional tanto en tareas de clasificación como de regresión:
| Métrica | Valor |
|---|---|
| Clasificación Precisión global | 99.95% |
| R-cuadrado (R²) | 99.08% |
Métricas detalladas
Métricas de regresión
| Métrica | Valor |
|---|---|
| R-cuadrado (R²) | 0.9908 |
| Error medio absoluto (MAE) | 0.0120 |
| Error cuadrático medio (ECM) | 0.0006 |
| Error cuadrático medio (RMSE) | 0.0241 |
Métricas de clasificación
| Métrica | Valor |
|---|---|
| Precisión global | 0.9993 |
| Recuperación global | 0.9998 |
| Puntuación global F1 | 0.9995 |
| Precisión de detección de IA | 0.999263 |
| Precisión de la detección humana | 0.9997 |
Mapa de predicción mejorado
En respuesta a los comentarios de los clientes, hemos perfeccionado nuestro sistema de mapeo de predicciones. Nuestro nuevo esquema de codificación por colores para las predicciones por frase está ahora mucho más cerca de la puntuación global. Esta mejora resuelve las discrepancias anteriores, garantizando que las predicciones por frase reflejen con precisión la valoración global de la cantidad de texto generado por la IA, una preocupación clave planteada por algunos clientes en el pasado.
Comparación de versiones
Nuestra trayectoria de mejora continua se aprecia claramente al comparar el Modelo 4.0 («Curia») con sus predecesores. A continuación se muestra una tabla resumen que destaca el rendimiento de clasificación de nuestras versiones recientes:
| Versión | Precisión de la IA | Precisión humana | Puntuación global |
| 2.0 | 99.6% | 98.4% | 99.0% |
| 3,0 «Luka» | 99.98% | 99.5% | 99.74% |
| 4,0 «Curia» | 99.92% | 99.97% | 99.95% |
Aunque la v4.0 («Curia») muestra una precisión de IA ligeramente inferior en comparación con la v3.0 «Luka» (99,93% frente a 99,98%), lo compensa con una precisión de detección de texto humano significativamente superior (99,98% frente a 99,5%) y una puntuación global más equilibrada (99,95% frente a 99,74%). Además,
Conclusión
El Modelo 4.0 («Curia») representa nuestro esfuerzo más avanzado hasta la fecha en la detección de contenidos de IA. Con su alta precisión de clasificación, su sólido rendimiento de regresión en la cuantificación del texto de IA y su refinado mapeo de predicción, Curia establece un nuevo punto de referencia para el sector. Seguimos dedicados a la mejora continua y la transparencia en nuestros esfuerzos tecnológicos.
Perspectivas de futuro
De cara al futuro, nos centraremos en
- Otras mejoras: Perfeccionamiento continuo de las capacidades de detección.
- Ampliación de los conjuntos de datos: Integrando textos aún más diversos y desafiantes.
- Participación de la comunidad: Incorporar las opiniones de la comunidad y mantener la transparencia para impulsar futuras innovaciones.
PREGUNTAS FRECUENTES
P: ¿Qué es el Modelo 4.0 («Curia»)?
R: Curia es nuestro último modelo de detección de IA, diseñado para distinguir con precisión sin precedentes entre textos generados por IA y textos escritos por humanos.
P: ¿Cómo se elaboró el conjunto de datos para las pruebas?
R: El conjunto de datos, que consta de 10.000 muestras, incluye textos escritos por humanos y textos generados por IA. Se ha examinado cuidadosamente y excluye los datos de entrenamiento utilizados durante el desarrollo del modelo.
P: ¿Qué LLM participaron en la formación y las pruebas?
R: Nuestro modelo se ha entrenado y probado con resultados de una amplia gama de LLM, como Claude 1, Claude 2, Claude 3 opus, Claude Sonnet 3.5, Gpt 3.5 turbo, Gpt-4, Gpt-4o, GPT-4o mini, Mistral Nemo, Gemini 1.5 Flash, Gemini 1.5 Pro y Llama 3.2B.
P: ¿Qué indican las métricas de regresión y qué es la regresión en este contexto?
R: La regresión es un método estadístico utilizado para predecir valores numéricos continuos. En nuestra aplicación, la regresión se emplea específicamente para detectar la cantidad de texto AI dentro de un texto determinado. Las métricas de regresión – Error Medio Absoluto (MAE), Error Medio Cuadrático (MSE), Error Medio Cuadrático (RMSE) y R-cuadrado (R²)- miden la precisión con la que nuestro modelo predice esta cantidad. El valor R² mejorado de 0,9823 indica que nuestras predicciones se ajustan estrechamente a la proporción real de contenido generado por IA.
P: ¿Cómo se compara Curia con los modelos anteriores?
R: En comparación con versiones anteriores, Curia muestra una precisión de la IA ligeramente inferior a la v3.0 «Luka», pero consigue un rendimiento de clasificación más equilibrado, con una precisión de detección de texto humano y una puntuación global significativamente superiores. Además, sus capacidades mejoradas de regresión para cuantificar el contenido de la IA la convierten en una herramienta sólida y fiable para la detección de contenidos.
P: ¿Qué desarrollos futuros podemos esperar?
R: Estamos comprometidos con la innovación continua. Las futuras actualizaciones se centrarán en afinar aún más las capacidades de detección, ampliar nuestros conjuntos de datos e incorporar los comentarios de los usuarios para impulsar mejoras.


