Skip to main content

Em nossa missão contínua de aprimorar a detecção de conteúdo gerado por IA, temos o prazer de apresentar o Modelo 4.0, com o codinome “Curia”. Essa versão marca um salto significativo em nosso compromisso com a transparência, a precisão e o aprimoramento contínuo na identificação de textos escritos por humanos e gerados por IA.


Introdução

O ritmo em que o conteúdo gerado por IA está evoluindo não tem precedentes. Com os rápidos avanços nos modelos generativos, o desafio de detectar e diferenciar com precisão os textos criados por humanos e por IA cresceu com a mesma rapidez. Nesse cenário, mecanismos de detecção robustos e transparentes são essenciais.

Hoje, temos o orgulho de apresentar o Modelo 4.0 (“Curia”), construído sobre a base de nossos sucessos anteriores e projetado com maior precisão e transparência. Nesta publicação, descrevemos nossa metodologia, apresentamos métricas de desempenho detalhadas e reforçamos nosso compromisso com a abertura na detecção de conteúdo de IA. Notavelmente, embora a v4.0 mostre uma precisão geral de IA um pouco menor em comparação com as iterações anteriores em uma métrica, ela oferece um desempenho mais equilibrado em tarefas de classificação e alcança um R² significativamente aprimorado em tarefas de regressão.


Compromisso com a transparência na detecção de IA

Divulgação completa

No centro do nosso processo de desenvolvimento está o compromisso com a total transparência. Compartilhamos abertamente nossas taxas de precisão, metodologias de teste e as complexidades de nossos conjuntos de dados para estabelecer um novo padrão no setor. A cada lançamento, nossa meta é fornecer percepções claras e baseadas em dados sobre o desempenho do nosso modelo.

Visão geral do conjunto de dados

Os principais detalhes do conjunto de dados incluem:

  • Total de amostras: 10,000
  • Idioma: Inglês
  • Data de geração: 2025-02-05 11:23:26

Esse conjunto de dados diversificado e meticulosamente examinado forma a espinha dorsal de nosso rigoroso processo de avaliação.


Materiais e metodologia

Coleta de dados

Nosso conjunto de dados inclui uma ampla gama de textos escritos por humanos coletados de fontes confiáveis, garantindo uma base linguística rica e variada. Cada amostra foi selecionada para abranger diversos estilos e contextos de escrita, o que é essencial para uma detecção robusta.

Conteúdo gerado por IA e testes de LLM

Para gerar textos de IA, empregamos modelos generativos avançados para criar amostras que imitam de perto os resultados de IA do mundo real. É importante ressaltar que o Modelo 4.0 (“Curia”) foi treinado e testado usando resultados de uma variedade de grandes modelos de linguagem (LLMs), incluindo:

  • Claude 1
  • Claude 2
  • Claude 3 opus
  • Soneto de Claude 3.5
  • Gpt 3.5 turbo
  • Gpt-4
  • Gpt-4o
  • Gpt-4o mini
  • Mistral Nemo
  • Gemini 1.5 Flash
  • Gemini 1.5 Pro
  • Llama 3.2B

Essa abordagem abrangente garante que nossos recursos de detecção sejam robustos e aplicáveis em um espectro diversificado de conteúdo gerado por IA.

Validação de dados

Para manter a integridade de nossa avaliação, validamos rigorosamente o conjunto de dados por meio de:

  • Exclusão de dados de treinamento: Garantir que nenhuma das amostras de teste faça parte da fase de treinamento.
  • Garantia de qualidade: Combinação de verificações manuais e automatizadas para verificar a autenticidade e a consistência de cada amostra.

Métricas de avaliação

Avaliamos o Modelo 4.0 (“Curia”) usando um conjunto abrangente de métricas que avaliam o desempenho da classificação e da regressão.

Métricas de classificação

Essas métricas nos ajudam a determinar quão bem o modelo categoriza os textos em classes distintas (por exemplo, gerados por IA versus escritos por humanos). As principais métricas de classificação incluem:

  • Precisão
  • Precisão
  • Recall
  • Pontuação da F1

Métricas de regressão

Além da classificação, nossa avaliação inclui análise de regressão. Em nosso aplicativo específico, a regressão é usada para detectar a quantidade de texto de IA presente em um determinado texto. Isso envolve a previsão de uma pontuação numérica contínua que reflete a proporção ou a extensão do conteúdo gerado por IA, em vez de simplesmente classificar um texto como gerado por IA ou por humanos.

Para medir o desempenho dessas previsões contínuas, usamos as seguintes métricas de regressão:

  • Precisão (dentro de uma margem de erro definida de 0,1)
  • Erro absoluto médio (MAE)
  • Erro médio quadrático (MSE)
  • Raiz do erro quadrático médio (RMSE)
  • R-quadrado (R²)

A margem de erro de 0,1 define o intervalo aceitável de desvio, garantindo que nossas previsões de regressão sejam precisas e confiáveis.


Resultados e análise

Desempenho geral

O Modelo 4.0 (“Curia”) demonstra um desempenho excepcional nas tarefas de classificação e regressão:

MétricaValor
Classificação Precisão geral99.95%
R-quadrado (R²)99.08%

Métricas detalhadas

Métricas de regressão

MétricaValor
R-quadrado (R²)0.9908
Erro absoluto médio (MAE)0.0120
Erro médio quadrático (MSE)0.0006
Raiz do erro quadrático médio (RMSE)0.0241

Métricas de classificação

MétricaValor
Precisão geral0.9993
Recuperação geral0.9998
Pontuação geral de F10.9995
Precisão da detecção de IA0.999263
Precisão da detecção humana0.9997

Mapeamento de previsão aprimorado

Em resposta aos comentários dos clientes, refinamos nosso sistema de mapeamento de previsões. Nosso novo esquema de codificação por cores para previsões por frase agora está muito mais próximo da pontuação global. Esse aprimoramento resolve as discrepâncias anteriores, garantindo que as previsões por frase reflitam com precisão a avaliação geral da quantidade de texto gerado por IA – uma das principais preocupações levantadas por alguns clientes no passado.


Comparação de versões

Nossa jornada de melhoria contínua pode ser vista claramente quando comparamos o Modelo 4.0 (“Curia”) com seus antecessores. Abaixo você encontra uma tabela de resumo que destaca o desempenho da classificação de nossas versões recentes:

VersãoPrecisão da IAPrecisão humanaPontuação geral
2.099.6%98.4%99.0%
3.0 “Luka”99.98%99.5%99.74%
4.0 “Curia”99.92%99.97%99.95%

Embora a v4.0 (“Curia”) apresente uma precisão de IA ligeiramente menor em comparação com a v3.0 “Luka” (99,93% vs. 99,98%), ela compensa com uma precisão de detecção de texto humano significativamente maior (99,98% vs. 99,5%) e uma pontuação geral mais equilibrada (99,95% vs. 99,74%). Além disso, o Curia apresenta um grande salto no desempenho da regressão com um R² de 0,9908, o que permite quantificar com precisão a quantidade de texto de IA em um determinado documento. Esse desempenho equilibrado em várias métricas marca um avanço importante em relação às iterações anteriores.


Conclusão

O Modelo 4.0 (“Curia”) representa nosso esforço mais avançado até o momento na detecção de conteúdo de IA. Com sua alta precisão de classificação, desempenho de regressão robusto na quantificação de texto de IA e mapeamento de previsão refinado, o Curia estabelece uma nova referência para o setor. Continuamos dedicados ao aprimoramento contínuo e à transparência em nossos esforços tecnológicos.

Perspectivas futuras

Olhando para o futuro, nosso foco estará em:

  • Aprimoramentos adicionais: Aprimoramento contínuo dos recursos de detecção.
  • Expansão dos conjuntos de dados: Integração de textos ainda mais diversificados e desafiadores.
  • Envolvimento da comunidade: Incorporar o feedback da comunidade e manter a transparência para impulsionar inovações futuras.

PERGUNTAS FREQUENTES

P: O que é o Modelo 4.0 (“Curia”)?
R: Curia é o nosso mais recente modelo de detecção de IA, projetado para distinguir com precisão entre textos gerados por IA e textos escritos por humanos com uma precisão sem precedentes.

P: Como foi feita a curadoria do conjunto de dados para teste?
R: O conjunto de dados, composto por 10.000 amostras, inclui textos escritos por humanos e gerados por IA. Ele foi cuidadosamente examinado e exclui todos os dados de treinamento usados durante o desenvolvimento do modelo.

P: Quais LLMs estiveram envolvidos no treinamento e nos testes?
R: Nosso modelo foi treinado e testado com resultados de uma ampla gama de LLMs, incluindo Claude 1, Claude 2, Claude 3 opus, Claude Sonnet 3.5, Gpt 3.5 turbo, Gpt-4, Gpt-4o, GPT-4o mini, Mistral Nemo, Gemini 1.5 Flash, Gemini 1.5 Pro e Llama 3.2B.

P: O que as métricas de regressão indicam e o que é regressão nesse contexto?
R: A regressão é um método estatístico usado para prever valores numéricos contínuos. Em nosso aplicativo, a regressão é empregada especificamente para detectar o quantidade de texto de IA em um determinado texto. As métricas de regressão – Erro Absoluto Médio (MAE), Erro Quadrático Médio (MSE), Erro Quadrático Médio da Raiz (RMSE) e R-quadrado (R²) – medem a precisão com que nosso modelo prevê essa quantidade. O valor R² aprimorado de 0,9823 indica que nossas previsões se aproximam da proporção real de conteúdo gerado por IA.

P: Como o Curia se compara aos modelos anteriores?
R: Em comparação com as versões anteriores, o Curia apresenta uma precisão de IA um pouco menor do que a v3.0 “Luka”, mas alcança um desempenho de classificação mais equilibrado com uma precisão de detecção de texto humano e uma pontuação geral significativamente maiores. Além disso, seus recursos de regressão aprimorados para quantificar o conteúdo de IA o tornam uma ferramenta robusta e confiável para a detecção de conteúdo.

P: Que desenvolvimentos futuros você pode esperar?
R: Nosso compromisso é com a inovação contínua. As futuras atualizações se concentrarão em aperfeiçoar ainda mais os recursos de detecção, expandir nossos conjuntos de dados e incorporar o feedback dos usuários para promover melhorias.

Thierry Lavergne

Cofundador e diretor de tecnologia da Winston AI. Com uma carreira de mais de 15 anos em desenvolvimento de software, sou especialista em Inteligência Artificial e aprendizado profundo. Na Winston AI, lidero a visão tecnológica, com foco no desenvolvimento de soluções inovadoras de detecção de IA. Minha experiência anterior inclui a criação de soluções de software para empresas de todos os portes e sou apaixonado por expandir os limites da tecnologia de IA. Adoro escrever sobre tudo relacionado à IA e à tecnologia.