2023 年 1 月 31 日,OpenAI 推出了一款人工智能文本分类器工具,旨在检测段落是由人类还是人工智能系统撰写的。该工具的推出将改变检测合成内容的格局,并帮助机构标记此类内容。然而,就在发布几个月后,OpenAI 突然终止了该工具,原因是它在区分人类和人工智能写作方面的准确率太低,令人失望。
OpenAI 的分类器及其缺点
OpenAI 的文本分类器工具旨在通过分析文本段落中的语言特征来检测人工智能生成的内容。它将分配一个 “概率等级”,以表明系统判定该文本是由人类还是人工智能撰写的。该工具推出后,随着人们对人工智能检测的兴趣与日俱增,获得了一定的知名度。
然而,就在几个月后的 2023 年 7 月 20 日,OpenAI 宣布由于该分类器的准确率较低而停止使用。在实践中,该系统在可靠地区分人类和机器写作方面困难重重。尽管分析了语言模式,但分类器往往无法正确识别段落是否由人工智能生成。我们对最佳人工智能检测器的深入研究表明,Open AI 部署的工具的检测率低得令人吃惊。

推进人工智能探测器的更大挑战
OpenAI 的分类器突然失灵,凸显了开发准确的人工智能检测系统所面临的持续挑战。最近的研究揭示了当前人工智能检测器的重大弱点和偏差。
研究发现,这些工具经常将人类撰写的文本误标为人工智能生成的文本。
此外,许多人工智能检测软件都没有经过新 LLM 的训练,因此无法检测到它们。它们也很容易被 Quillbot 等解析工具绕过。
生成式人工智能的飞速发展也意味着检测工具往往会被超越,从而更容易逃避检测。温斯顿人工智能的主要目标是不断改进其模型,以检测人工智能写作,同时尽量减少误报的发生。
需要更好的解决方案
虽然随着人工智能内容的传播,人工智能检测技术对于问责制来说仍然至关重要,但 OpenAI 等例子表明,这项任务并非易事。Winston AI 的核心任务是检测人工智能,而许多其他替代性人工智能检测器则是作为副业提供的。OpenAI 表示将致力于开发更强大的出处技术,但其分类器的快速失效表明,完善此类系统依然困难重重。
有人说,目前生成式人工智能的发展速度已经超过了检测方法的创新速度,但温斯顿人工智能拥有迄今为止最精确的人工智能检测模型。
结论
OpenAI 的人工智能文本分类器在短短几个月后就突然停产,这表明在开发可靠的人工智能检测工具方面仍然存在巨大挑战。尽管他们的分类器旨在通过分析语言模式来区分人类写作和机器写作,但很快就失败了。
亚马逊、Anthropic、谷歌、Inflection、Meta、微软和 Open AI 等引领人工智能运动的大公司与拜登-哈里斯政府会面,并自愿承诺推进安全、可靠和透明的人工智能开发。这包括添加水印,以确保检测人工智能的能力,尤其是深度伪造。
随着人工内容的传播,开发更强大的人工智能检测技术对于维护透明度和信任度愈发重要。虽然远非完美,但通过不断研究和进步来改进此类工具仍然至关重要。
常见问题
OpenAI 的文本分类器是 2023 年 1 月 31 日推出的一个人工智能系统,旨在检测文本段落是由人类还是人工智能系统撰写的。该系统旨在分析写作中的语言特征,并给出 “概率评级”,以表明内容是否由人工智能生成。随着人工智能生成系统越来越先进,识别人工内容的需求也越来越大,该系统的目标就是帮助满足这一需求。
2023 年 7 月,OpenAI 在其文本分类器发布仅数月后便将其停用,原因是其在区分人类和人工智能写作方面的准确率太低,令人失望。在实践中,该系统难以通过语言分析可靠地区分人类撰写的内容和机器撰写的内容。
虽然开发准确的人工智能检测十分困难,但随着人工内容的传播,它对于问责制来说仍然至关重要。像 OpenAI 这样的工具尽管存在缺陷,但其目的是维护文本和其他媒体来源的透明度。随着人工智能的发展,即使进展缓慢,更好的解决方案也是必不可少的。
主要的人工智能公司已承诺推进安全透明的人工智能开发,包括提高检测人工智能内容的能力。正在进行的研究也在继续努力加强检测工具,尽量减少对人类创建内容的错误识别。然而,随着人工智能能力的迅速扩展,完善此类系统仍具有挑战性。