训练数据、模型以及受污染数据集的隐藏问题
想象一下,您写了一篇出色的内容,并决定检查其 AI 评分。
您选择了 Winston AI、Quillbot 和 GPTZero,评分结果如下:
- 78%
- 100%
- 95%
那么,应该信任哪个结果呢?如果您是一名学生,您会尝试
修改内容以获得 100% 的分数。
对于那些将 AI 工具的判定视为最终结论的教育工作者来说,这可能会导致不公平的处罚;而出版商和专业人士则不确定该信任什么。
你们中的许多人可能会对这些相互矛盾的结果感到困惑,认为工具或技术出了问题?
那么,本文将帮助您消除所有疑虑,并了解 AI 检测的工作原理。
AI 检测器并非单一的通用系统
AI 检测器没有管理机构。
由于没有全球权威机构来定义“AI 编写”,因此不存在工具需要遵循的标准化评分系统。
每个工具都是独立构建的,在不同的数据上进行训练,并针对特定目标进行了优化。这背后的原因是刻意为之的,不应被视为缺陷。
一些 AI 检测器旨在确保学术诚信。在大学里,虚假指控可能会损害学生的未来,因此这些 工具 倾向于谨慎。除非有强大的数据支持,否则它们表示的是概率,而不是非黑即白的判定。
为出版商和 SEO 团队创建的工具并不关注学术挑战。但它们需要确保整个内容的质量是顶级的。这些工具旨在扫描大量文本并标记常见的 AI 模式。
还有另一类检测器是为了一般意识而构建的,在这里速度最为重要。这些不应被用于对某人的职业生涯做出决策。由于目标不同,检测器本质上并不是在回答同一个问题。
自然地,它们的结论指向了光谱中不同的范围。
不同的训练 = 不同的结果
AI 检测器永远无法像您一样理解写作。作为人类,您会依靠意图、语境、生活经验和细微差别来评估某样东西感觉是人为的还是人造的。与此同时,AI 检测器纯粹依靠接触。它们只是观察给定的示例,并识别它们之间的统计相似性。
检测器在三类文本上进行训练:
- 经过验证的人类内容
- AI 生成的内容
- 混合内容
这些样本在训练开始前会被贴上标签。虽然您会对一个段落质疑 10 次,但检测器只是将其视为真理。随着时间的推移,会建立一个对应于每个类别的内部映射。这就是检测器之间行为发生转变的地方。
如果一个检测器经常遇到被标记为“AI 生成”的轻微编辑过的 AI 文本,它将学会甚至将细微的实例与 AI 作者身份联系起来。结果,它变得高度敏感,更有可能标记边缘案例。
另一个在被标记为“人类”的精美、专业编辑的人类写作上训练的检测器,可能会容忍类似的模式,并做出更谨慎的反应。
为什么数据集比算法更重要?
虽然围绕 AI 检测的讨论通常围绕架构选择、算法或网络深度展开,但它们并不是准确性的主要驱动因素。
数据质量远比算法的复杂性重要。在一个准确标记的数据上训练的简单模型,远好于在一个嘈杂、不一致或标记不良的数据集上训练的复杂模型。原因何在?AI 检测器基于泛化工作,不具备推理能力。
AI 检测器的可靠性永远不会超过它所学习的数据。
如果训练数据存在偏差、差距或标记错误,检测器就会变得“自信地错误”。虽然听起来很权威,但那种自信是继承而来的,而不是赢得的。
隐藏的问题:受污染的训练数据
AI 检测器严重依赖网络抓取的数据。大多数在线内容都是人类编写的这一假设可能很棘手。当前的生态系统具有分层的作者身份,因为 AI 和人类内容之间的界限已经模糊,而且这种趋势只会上升。在线文本包括:
- 完全由 AI 生成的内容
- 使用 AI 工具编辑或增强的人类编写内容
- 受 AI 建议、重写或提示词影响的人类写作。
当此类内容被大规模收集时,标记变得脆弱。如果 AI 辅助或生成的内容被标记为人类,这些模式就会被内化为人类写作,从长远来看,这会侵蚀精度。
早些时候,像维基百科这样的大型参考源被认为是最好的人类写作样本之一。但现在,文章可能包含部分或大量的 AI 参与。
如果一个工具将维基百科的内容视为纯粹的人类写作,它就会得到一个扭曲的信号。这并不意味着维基百科不可靠或对其受众有任何恶意。它只是意味着标签很重要,不应该做出假设。
混合来源的数据只会导致检测器学习模糊的模式并损害其准确性。数据污染只会带来伤害,其输出是建立在模糊的区别之上的。
当标签错误时,置信度就会变得具有误导性。这就是为什么 AI 检测 结果永远不应被解释为最终判定。
为什么有些检测器会将精美的人类写作标记为 AI?
尝试写一篇博客,甚至给朋友写一条生日祝福,然后测试其 AI 评分。很有可能它会被标记为 AI。发生这种情况的原因如下:
- 经过多轮编辑的内容变得清晰、一致且中立。这些特征与 AI 生成的写作重叠。由于精美的写作和 AI 写作具有相似的特征,区分变得困难。
- SEO 优化的内容强调清晰的主题结构、一致的语气和可预测的格式。通常此类内容来自 AI,而这些特征与自动化相关联,从而导致 误报。
- 非英语母语人士会避免玩弄语言,而是使用更简单的句子。他们还使用安全的语法形式,而这种可预测性与 AI 相关联。虽然这不公平,但它是由于数据集偏差造成的。
模型更新 vs 静态检测器
语言模型生成的内容可以在一秒钟内被检测出来的日子已经一去不复返了。新模型产生的内容难以区分。它不仅更自然、重复性更少,而且还能细致地捕捉人类的变化。
因此,在旧输出上训练的检测器会做出局限的判断。不断更新其数据集的动态生成模型是比静态检测器更好的选择,因为静态检测器可能不会经常重新训练。
这就是为什么像 Winston AI 这样的工具强调持续的模型更新,而不是一次性发布。
其数据集由从经过验证且信誉良好的基地收集的广泛人类写作组成,提供了语言多样性。
它还使用回归分析,通过以下指标准确检测样本中的 AI 系数,以实现 AI 检测准确率达到 99.93% 的承诺。
- 准确度(规定误差范围在 0.1 以内)
- 均方根误差 (RMSE)
- 平均平方误差 (MSE)
- 平均绝对误差 (MAE)
- R 平方 (R²)
为什么即使检测器“准确”,评分也会有所不同?
即使检测器运行正常,评分也可能有所不同。原因如下:
1. 不同的置信度阈值
根据训练数据的不同,检测器可以是保守的或激进的。有些需要强烈的信号,否则会将内容标记为不确定。而另一些则会更早地标记内容,因为它们优先考虑查全率而非谨慎。虽然没有哪种方法是错误的,但它们反映了不同的风险理念。
2. 不同的评分系统
并非所有检测器都旨在测量相同的东西。有些给出概率估计,另一些可能提供可能性范围或置信区间。而有些只是将内容分类为 AI、人类或混合。两个工具可能在信号上达成一致,但呈现方式可能不同。
3. 概率 vs 分类
AI 检测表示的是一种概率。40% 的分数表示可能性,不应被视为定论。提供概率的工具应该是您的首选,因为它们鼓励解释,而不是那些直接分配标签的工具。
最终总结:分歧是这项技术的一个特征
AI 检测器 可能意见不一,人们很容易假设系统不可靠。分歧只是反映了不同的风险承受能力、训练数据和标记选择。
请记住,AI 检测是为了做出明智的决策,而不是绝对的真理。检测器被训练用于提供信号而非判定。在人类和 AI 写作重叠的时代,您需要的是检测器对其分析保持透明。


