导言

生成式人工智能非常容易使用,如今越来越多的发布内容主要由 ChatGPT 撰写。

如果你使用过任何生成式人工智能聊天机器人,你就会同意:它可以快速、相当准确地完成大部分繁重的工作。然而,这给下一代作家、下一次主要法律硕士的更新以及更多问题带来了一些麻烦。

聊天机器人生成的内容质量一般,且存在虚假信息

如果没有 Chatbots 的帮助,会有人知道如何写作吗?问题在于,ChatGPT 和所有其他 LLM 都没有检查其信息来源以及信息和输出的准确性。随着越来越多的人工智能生成的内容入侵网络,它们产生的不准确信息也会越来越多。其最终的多米诺骨牌效应是,下一代 LLM 将在人类数据和包含低质量内容和不准确事实的合成数据(大多被称为 “幻觉”)的混合数据上接受训练。

法律硕士需要在互联网上搜刮信息,以训练他们的新模型和更新模型

包括 Open AI(ChatGPT)、Anthropic 甚至谷歌在内的各大人工智能公司都需要从互联网上搜刮信息来训练他们的新模型。这将成为一个极大的问题,原因有以下几点。互联网上的数据完全充斥着人工智能生成的内容。此外,大多数与人类互动的平台现在都在阻止任何类型的搜刮,或者对使用其 API 收取惊人的费用

人工智能聊天机器人还停留在 2021 年吗?

ChatGPT 是自己成功的牺牲品。由于该工具的写作能力超强,其输出内容现已充斥互联网。为了更新新内容,它可能不得不在这一过程中摄入自己合成的内容,从而使其模型不太可能模仿人类的写作方式。这就是为什么许多新闻媒体都报道说,GPT4 的输出结果越来越可预测……也越来越糟糕。

底线

由于大型语言模型的性质,其训练需要大量高质量的数据。这些大型语言模型的质量和准确性首先取决于其训练所依据的数据。通过为下一次更新和下一代人工智能聊天机器人提供人类和合成内容的混合数据,我们预计大型语言模型的输出将会减少,直到找到解决方案为止。像 Winston AI 这样的人工智能检测器可以帮助企业过滤人工制作的内容和人工智能生成的文章。

常见问题

什么是生成式人工智能,它是如何入侵网络的?

生成式人工智能指的是像 ChatGPT 或 Midjourney(图像)这样可以生成新内容的人工智能系统。问题在于,随着生成式人工智能的广泛应用,越来越多的在线内容是由人工智能而非人类生成的。由于人工智能不会对所生成内容的真实性进行事实检查或评估,这可能会让低质量、不准确或有偏见的信息 “毒害 “网络。

如何辨别内容是否由人工智能编写?

您可以使用人工智能内容检测器,如Winston AI
还有一些迹象表明内容可能是人工智能生成的:
– 它的风格一般化、公式化,没有太多原创性。
– 缺乏人类写作特有的细微差别、复杂性和多变性。

– 写作水平过于一致,没有人类作者的自然变化。

为什么人工智能生成的内容会成为训练新人工智能模型的问题?

人工智能模型是在大量文本、图像等数据集上训练出来的。如果用于训练的大部分数据实际上是来自其他人工智能的低质量合成内容,就会污染训练数据。这会传播偏见、虚假信息和人工智能的通用写作风格。新的人工智能模型会模仿这些缺陷,而不是学习生成高质量、类似人类的内容。

人工智能界如何抵御训练数据的毒害?

一些解决方案包括:
– 使用人工智能检测器,如Winston AI。
– 更多地依靠经核实由人类创建的高质量数据集。
– 训练模型,以识别并避免重复错误信息。
– 定期测试模型,以发现悄然出现的任何偏差或不准确之处。
– 使用强化学习等技术,以鼓励更具创造性和可变性的输出。

随着时间的推移,人工智能的质量会因为合成训练数据而变差吗?

如果不采取措施验证训练数据并纠正悄然出现的任何缺陷,这种情况肯定会发生。但是,通过负责任的数据实践和创新来提高人工智能的稳健性,随着时间的推移,也有机会提高人工智能系统的质量、准确性和可信度。人工智能界正在认真对待这个问题。

Thierry Lavergne

Winston AI 联合创始人兼首席技术官(CTO)。拥有超过15年的软件开发经验,专注于人工智能和深度学习领域。在 Winston AI,我负责技术愿景的制定,重点开发创新的人工智能检测解决方案。我热爱撰写与人工智能和科技相关的内容。