Em nossa missão contínua de aprimorar a detecção de conteúdo gerado por IA, temos o prazer de apresentar o Modelo 4.0, com o codinome “Curia”. Essa versão marca um salto significativo em nosso compromisso com a transparência, a precisão e o aprimoramento contínuo na identificação de textos escritos por humanos e gerados por IA.
Introdução
O ritmo em que o conteúdo gerado por IA está evoluindo não tem precedentes. Com os rápidos avanços nos modelos generativos, o desafio de detectar e diferenciar com precisão os textos criados por humanos e por IA cresceu com a mesma rapidez. Nesse cenário, mecanismos de detecção robustos e transparentes são essenciais.
Hoje, temos o orgulho de apresentar o Modelo 4.0 (“Curia”), construído sobre a base de nossos sucessos anteriores e projetado com maior precisão e transparência. Nesta publicação, descrevemos nossa metodologia, apresentamos métricas de desempenho detalhadas e reforçamos nosso compromisso com a abertura na detecção de conteúdo de IA. Notavelmente, embora a v4.0 mostre uma precisão geral de IA um pouco menor em comparação com as iterações anteriores em uma métrica, ela oferece um desempenho mais equilibrado em tarefas de classificação e alcança um R² significativamente aprimorado em tarefas de regressão.
Compromisso com a transparência na detecção de IA
Divulgação completa
No centro do nosso processo de desenvolvimento está o compromisso com a total transparência. Compartilhamos abertamente nossas taxas de precisão, metodologias de teste e as complexidades de nossos conjuntos de dados para estabelecer um novo padrão no setor. A cada lançamento, nossa meta é fornecer percepções claras e baseadas em dados sobre o desempenho do nosso modelo.
Visão geral do conjunto de dados
Os principais detalhes do conjunto de dados incluem:
- Total de amostras: 10,000
- Idioma: Inglês
- Data de geração: 2025-02-05 11:23:26
Esse conjunto de dados diversificado e meticulosamente examinado forma a espinha dorsal de nosso rigoroso processo de avaliação.
Materiais e metodologia
Coleta de dados
Nosso conjunto de dados inclui uma ampla gama de textos escritos por humanos coletados de fontes confiáveis, garantindo uma base linguística rica e variada. Cada amostra foi selecionada para abranger diversos estilos e contextos de escrita, o que é essencial para uma detecção robusta.
Conteúdo gerado por IA e testes de LLM
Para gerar textos de IA, empregamos modelos generativos avançados para criar amostras que imitam de perto os resultados de IA do mundo real. É importante ressaltar que o Modelo 4.0 (“Curia”) foi treinado e testado usando resultados de uma variedade de grandes modelos de linguagem (LLMs), incluindo:
- Claude 1
- Claude 2
- Claude 3 opus
- Soneto de Claude 3.5
- Gpt 3.5 turbo
- Gpt-4
- Gpt-4o
- Gpt-4o mini
- Mistral Nemo
- Gemini 1.5 Flash
- Gemini 1.5 Pro
- Llama 3.2B
Essa abordagem abrangente garante que nossos recursos de detecção sejam robustos e aplicáveis em um espectro diversificado de conteúdo gerado por IA.
Validação de dados
Para manter a integridade de nossa avaliação, validamos rigorosamente o conjunto de dados por meio de:
- Exclusão de dados de treinamento: Garantir que nenhuma das amostras de teste faça parte da fase de treinamento.
- Garantia de qualidade: Combinação de verificações manuais e automatizadas para verificar a autenticidade e a consistência de cada amostra.
Métricas de avaliação
Avaliamos o Modelo 4.0 (“Curia”) usando um conjunto abrangente de métricas que avaliam o desempenho da classificação e da regressão.
Métricas de classificação
Essas métricas nos ajudam a determinar quão bem o modelo categoriza os textos em classes distintas (por exemplo, gerados por IA versus escritos por humanos). As principais métricas de classificação incluem:
- Precisão
- Precisão
- Recall
- Pontuação da F1
Métricas de regressão
Além da classificação, nossa avaliação inclui análise de regressão. Em nosso aplicativo específico, a regressão é usada para detectar a quantidade de texto de IA presente em um determinado texto. Isso envolve a previsão de uma pontuação numérica contínua que reflete a proporção ou a extensão do conteúdo gerado por IA, em vez de simplesmente classificar um texto como gerado por IA ou por humanos.
Para medir o desempenho dessas previsões contínuas, usamos as seguintes métricas de regressão:
- Precisão (dentro de uma margem de erro definida de 0,1)
- Erro absoluto médio (MAE)
- Erro médio quadrático (MSE)
- Raiz do erro quadrático médio (RMSE)
- R-quadrado (R²)
A margem de erro de 0,1 define o intervalo aceitável de desvio, garantindo que nossas previsões de regressão sejam precisas e confiáveis.
Resultados e análise
Desempenho geral
O Modelo 4.0 (“Curia”) demonstra um desempenho excepcional nas tarefas de classificação e regressão:
| Métrica | Valor |
|---|---|
| Classificação Precisão geral | 99.95% |
| R-quadrado (R²) | 99.08% |
Métricas detalhadas
Métricas de regressão
| Métrica | Valor |
|---|---|
| R-quadrado (R²) | 0.9908 |
| Erro absoluto médio (MAE) | 0.0120 |
| Erro médio quadrático (MSE) | 0.0006 |
| Raiz do erro quadrático médio (RMSE) | 0.0241 |
Métricas de classificação
| Métrica | Valor |
|---|---|
| Precisão geral | 0.9993 |
| Recuperação geral | 0.9998 |
| Pontuação geral de F1 | 0.9995 |
| Precisão da detecção de IA | 0.999263 |
| Precisão da detecção humana | 0.9997 |
Mapeamento de previsão aprimorado
Em resposta aos comentários dos clientes, refinamos nosso sistema de mapeamento de previsões. Nosso novo esquema de codificação por cores para previsões por frase agora está muito mais próximo da pontuação global. Esse aprimoramento resolve as discrepâncias anteriores, garantindo que as previsões por frase reflitam com precisão a avaliação geral da quantidade de texto gerado por IA – uma das principais preocupações levantadas por alguns clientes no passado.
Comparação de versões
Nossa jornada de melhoria contínua pode ser vista claramente quando comparamos o Modelo 4.0 (“Curia”) com seus antecessores. Abaixo você encontra uma tabela de resumo que destaca o desempenho da classificação de nossas versões recentes:
| Versão | Precisão da IA | Precisão humana | Pontuação geral |
| 2.0 | 99.6% | 98.4% | 99.0% |
| 3.0 “Luka” | 99.98% | 99.5% | 99.74% |
| 4.0 “Curia” | 99.92% | 99.97% | 99.95% |
Embora a v4.0 (“Curia”) apresente uma precisão de IA ligeiramente menor em comparação com a v3.0 “Luka” (99,93% vs. 99,98%), ela compensa com uma precisão de detecção de texto humano significativamente maior (99,98% vs. 99,5%) e uma pontuação geral mais equilibrada (99,95% vs. 99,74%). Além disso,
Conclusão
O Modelo 4.0 (“Curia”) representa nosso esforço mais avançado até o momento na detecção de conteúdo de IA. Com sua alta precisão de classificação, desempenho de regressão robusto na quantificação de texto de IA e mapeamento de previsão refinado, o Curia estabelece uma nova referência para o setor. Continuamos dedicados ao aprimoramento contínuo e à transparência em nossos esforços tecnológicos.
Perspectivas futuras
Olhando para o futuro, nosso foco estará em:
- Aprimoramentos adicionais: Aprimoramento contínuo dos recursos de detecção.
- Expansão dos conjuntos de dados: Integração de textos ainda mais diversificados e desafiadores.
- Envolvimento da comunidade: Incorporar o feedback da comunidade e manter a transparência para impulsionar inovações futuras.
PERGUNTAS FREQUENTES
P: O que é o Modelo 4.0 (“Curia”)?
R: Curia é o nosso mais recente modelo de detecção de IA, projetado para distinguir com precisão entre textos gerados por IA e textos escritos por humanos com uma precisão sem precedentes.
P: Como foi feita a curadoria do conjunto de dados para teste?
R: O conjunto de dados, composto por 10.000 amostras, inclui textos escritos por humanos e gerados por IA. Ele foi cuidadosamente examinado e exclui todos os dados de treinamento usados durante o desenvolvimento do modelo.
P: Quais LLMs estiveram envolvidos no treinamento e nos testes?
R: Nosso modelo foi treinado e testado com resultados de uma ampla gama de LLMs, incluindo Claude 1, Claude 2, Claude 3 opus, Claude Sonnet 3.5, Gpt 3.5 turbo, Gpt-4, Gpt-4o, GPT-4o mini, Mistral Nemo, Gemini 1.5 Flash, Gemini 1.5 Pro e Llama 3.2B.
P: O que as métricas de regressão indicam e o que é regressão nesse contexto?
R: A regressão é um método estatístico usado para prever valores numéricos contínuos. Em nosso aplicativo, a regressão é empregada especificamente para detectar o quantidade de texto de IA em um determinado texto. As métricas de regressão – Erro Absoluto Médio (MAE), Erro Quadrático Médio (MSE), Erro Quadrático Médio da Raiz (RMSE) e R-quadrado (R²) – medem a precisão com que nosso modelo prevê essa quantidade. O valor R² aprimorado de 0,9823 indica que nossas previsões se aproximam da proporção real de conteúdo gerado por IA.
P: Como o Curia se compara aos modelos anteriores?
R: Em comparação com as versões anteriores, o Curia apresenta uma precisão de IA um pouco menor do que a v3.0 “Luka”, mas alcança um desempenho de classificação mais equilibrado com uma precisão de detecção de texto humano e uma pontuação geral significativamente maiores. Além disso, seus recursos de regressão aprimorados para quantificar o conteúdo de IA o tornam uma ferramenta robusta e confiável para a detecção de conteúdo.
P: Que desenvolvimentos futuros você pode esperar?
R: Nosso compromisso é com a inovação contínua. As futuras atualizações se concentrarão em aperfeiçoar ainda mais os recursos de detecção, expandir nossos conjuntos de dados e incorporar o feedback dos usuários para promover melhorias.


