Skip to main content

在我们不断推进人工智能生成内容检测的过程中,我们非常高兴地推出了代号为“Curia “Model 4.0 这一版本标志着我们在识别人类撰写的文本和人工智能生成的文本方面,在承诺透明度、精确性和持续改进方面取得了重大飞跃。


导言

人工智能生成内容的发展速度是前所未有的。随着生成模型的快速发展,准确检测和区分人类文本和人工智能生成文本的挑战也同样快速增长。在这种情况下,强大而透明的检测机制至关重要。

今天,我们隆重推出了模型 4.0(”Curia”),它建立在我们以往成功的基础之上,在设计上提高了准确性和透明度。在这篇文章中,我们概述了我们的方法,提出了详细的性能指标,并强化了我们在人工智能内容检测方面的开放承诺。值得注意的是,v4.0 在一项指标上的整体 AI 准确率略低于之前的迭代版本,但在分类任务上的表现更加均衡,在回归任务中的 R² 得到显著提高。


致力于人工智能检测的透明度

全面披露

我们开发过程的核心是承诺完全透明。我们公开分享我们的准确率、测试方法和错综复杂的数据集,以树立新的行业标准。每一次发布,我们的目标都是提供清晰、有数据支持的模型性能洞察。

数据集概览

主要数据集详情包括

  • 样本总数10,000
  • 语言: 英语英语
  • 生成日期:2025-02-05 11:23:26

这个经过精心审核的多样化数据集是我们严格评估流程的基础。


材料和方法

数据收集

我们的数据集包括从可靠来源收集的大量人类撰写的文本,确保了丰富多样的语言基础。我们选择的每个样本都涵盖了不同的写作风格和语境,这对于实现稳健的检测至关重要。

人工智能生成的内容和 LLM 测试

在生成人工智能文本时,我们采用了先进的生成模型,以创建与真实世界人工智能输出密切相关的样本。重要的是,模型 4.0(”Curia”)是在各种领先的大型语言模型(LLM)输出的基础上训练和测试的,这些大型语言模型包括

  • 克劳德 1
  • 克劳德 2
  • 克劳德 3 作品
  • 克洛德十四行诗 3.5
  • Gpt 3.5 涡轮增压发动机
  • Gpt-4
  • Gpt-4o
  • Gpt-4o mini
  • Mistral Nemo
  • 双子座 1.5 Flash
  • 双子座 1.5 Pro
  • 拉马 3.2B

这种全面的方法可确保我们的检测能力强大并适用于各种人工智能生成的内容。

数据验证

为了保持评估的完整性,我们对数据集进行了严格的验证:

  • 排除训练数据:确保所有测试样本都不属于训练阶段。
  • 质量保证:结合人工和自动检查,验证每个样本的真实性和一致性。

评估指标

我们使用一套评估分类和回归性能的综合指标对Model 4.0(”Curia”)进行了评估。

分类指标

这些指标可以帮助我们确定模型将文本归入离散类别(例如,人工智能生成的文本与人类撰写的文本)的程度。主要的分类指标包括

  • 准确性
  • 精度
  • 回顾
  • F1 分数

回归指标

除了分类,我们的评估还包括回归分析。在我们的具体应用中,回归分析用于检测给定文本中人工智能文本的数量。这需要预测一个连续的数字分数,以反映人工智能生成内容的比例或程度,而不仅仅是将文本分类为人工智能或人工生成。

为了衡量这些连续预测的性能,我们使用了以下回归指标:

  • 准确度(规定误差范围在 0.1 以内)
  • 平均绝对误差 (MAE)
  • 平均平方误差 (MSE)
  • 均方根误差 (RMSE)
  • R 平方 (R²)

0.1 的误差幅度定义了可接受的偏差范围,确保我们的回归预测既精确又可靠。


结果与分析

总体绩效

模型 4.0(”Curia”)在分类和回归任务中均表现出卓越的性能:

公制价值
分类总准确率99.95%
R 平方 (R²)99.08%

详细指标

回归指标

公制价值
R 平方 (R²)0.9908
平均绝对误差 (MAE)0.0120
平均平方误差 (MSE)0.0006
均方根误差 (RMSE)0.0241

分类指标

公制价值
总体精度0.9993
整体召回0.9998
F1 总分0.9995
人工智能检测精度0.999263
人体检测精度0.9997

增强型预测绘图

根据客户反馈,我们改进了预测映射系统。现在,我们针对每句话预测的新颜色编码方案与全局分数更为接近。这一改进解决了之前的差异,确保每句话的预测准确反映人工智能生成的文本数量的整体评估–这是过去一些客户提出的主要问题。


版本比较

模型 4.0(”Curia”)与之前的版本进行比较,可以清楚地看到我们不断改进的历程。下面的汇总表重点介绍了我们最新版本的分类性能:

版本人工智能的准确性人类准确性总分
2.099.6%98.4%99.0%
3.0 “卢卡”99.98%99.5%99.74%
4.0 “库里亚”99.92%99.97%99.95%

虽然与 v3.0 “Luka “相比,v4.0(”Curia“)的人工智能准确率略低(99.93% 对 99.98%),但它的人类文本检测准确率显著提高(99.98% 对 99.5%),总体得分更加均衡(99.95% 对 99.74%),从而弥补了这一不足。此外,Curia还在回归性能方面实现了重大飞跃,R² 达到 0.9908,使其能够准确量化给定文档中的人工智能文本数量。与之前的迭代产品相比,Curia 在多个指标上的均衡表现标志着一项重大进步。


结论

模型 4.0(”Curia”)是我们迄今为止在人工智能内容检测方面最先进的成果。凭借高分类准确性、量化人工智能文本的强大回归性能以及精致的预测映射,Curia 为行业树立了新的标杆。我们将一如既往地致力于不断改进和提高技术工作的透明度。

未来展望

展望未来,我们将重点关注

  • 进一步增强:不断完善检测能力。
  • 扩展数据集:整合更多样化、更具挑战性的文本。
  • 社区参与:纳入社区反馈并保持透明度,以推动未来的创新。

常见问题

问:什么是 4.0 版(”Curia”)?
答:Curia 是我们最新的人工智能检测模型,旨在以前所未有的精度准确区分人工智能生成的文本和人类撰写的文本。

问:测试数据集是如何策划的?
答:该数据集包含 10,000 个样本,其中既有人类撰写的文本,也有人工智能生成的文本。该数据集经过仔细审核,不包括模型开发过程中使用的任何训练数据。

问:哪些法律硕士参与了培训和测试?
答:我们的模型已在多种 LLM 的输出上进行了训练和测试,包括 Claude 1、Claude 2、Claude 3 opus、Claude Sonnet 3.5、Gpt 3.5 turbo、Gpt-4、Gpt-4o、GPT-4o mini、Mistral Nemo、Gemini 1.5 Flash、Gemini 1.5 Pro 和 Llama 3.2B。

问:回归指标说明了什么?
答:回归是一种用于预测连续数值的统计方法。在我们的应用中,回归是专门用来检测 人工智能文本数量 的回归指标。回归指标–平均绝对误差 (MAE)、平均平方误差 (MSE)、均方根误差 (RMSE) 和 R 平方 (R²)–衡量了我们的模型预测这一数量的准确程度。改进后的 R² 值为 0.9823,表明我们的预测与人工智能生成内容的实际比例非常吻合。

问:Curia 与以前的型号相比有何不同?
答:与早期版本相比,Curia 的人工智能准确率略低于 v3.0 “Luka”,但分类性能更加均衡,人类文本检测准确率和总得分显著提高。此外,它还增强了量化人工智能内容的回归功能,使其成为一个强大而可靠的内容检测工具。

问:未来会有哪些发展?
答:我们致力于不断创新。未来的更新将侧重于进一步微调检测功能、扩展数据集,并结合用户反馈推动改进。

Thierry Lavergne

温斯顿人工智能公司(Winston AI)联合创始人兼首席技术官。我拥有超过 15 年的软件开发经验,擅长人工智能和深度学习。在温斯顿人工智能公司,我领导技术愿景,专注于开发创新的人工智能检测解决方案。我之前的经验包括为各种规模的企业构建软件解决方案,我热衷于推动人工智能技术的发展。我喜欢撰写与人工智能和技术有关的一切文章。