完全指南:如何检测AI聊天机器人的抄袭问题
像chatgpt这样的ai聊天机器人不仅仅局限于回答您的问题。它们可以写出类似人类的电子邮件、求职信、论文、诗歌、博客文章等等。
ai写作就像变色龙一样-它可以与任何其他类型的写作融为一体,以至于您很难分辨出差异。
不幸的是,这使得我们人类非常难以辨别ai是否写了某些东西而不是人。当然,我们可以采纳夏洛克·福尔摩斯的建议“排除不可能的事情”,但谁有时间呢?
如果我告诉您上面的段落是由ai写的呢?是的,我让youwrite为这篇文章写了一个简短的介绍,这就是它想出的。相当令人信服,对吧?这就是问题所在,它太令人信服了,以至于任何人都可以将其作为自己的作品来获益。
ai不仅仅是复述内容;它们学习主题,并使用自然语言和rlhf来呈现。这意味着生成的内容既不会感觉机械,也不能与在线可用的数据进行比较以检测剽窃。
检测ai生成的内容并不容易,我不会给您虚假希望,告诉您可以以100%的准确率捕捉到它。然而,通过一点侦探工作和一些ai写作检测工具的帮助,您可以捕捉到大多数ai作品。
下面您将找到检测ai剽窃的手动方法和一些自动工具。
检测ai剽窃的工具
有很多工具可用于检测ai生成的内容。然而,它们的准确性因内容类型和长度而异,可能会失败。
我使用chatgpt、gpt-3 playground、writesonic、rytr和youwrite生成的不同类型的内容来测试这些工具。它们成功检测到chatgpt和gpt-3 playground生成的所有类型的内容。
尽管它们在专门的写作工具上的结果各不相同,但有意思的是,它们都无法检测到youwrite;我猜这是因为youwrite故意犯人类错误以避免被检测。
我建议您将这些工具与手动检查内容同时使用。首先,使用其中一个工具分析内容,然后手动检查是否有任何线索以进一步确认疑虑。
下面我列出了一些提供最佳结果且最易于使用的工具:
注意:为了演示,我将使用writesonic生成的文本进行“芒果的好处”的检测。
#1. originality ai
大规模扫描ai生成的内容可能会对许多网络发布者造成巨大挑战。然而,我有一个完美的解决方案供您选择。originality ai可以检查您的整个内容,并评估您的整个网站受未来google ai更新影响的风险。
我还想强调一下我特别欣赏originality ai的多语言ai检测功能。这个功能消除了全球范围内的语言障碍,支持15种语言。
#2. content at scale
我发现 content at scale 的ai内容检测器在我运行的大部分测试中都是最准确的。它允许您每次扫描最多扫描2500个字符,并且提供一个百分比预测,显示真实或虚假内容的密度。
如果内容超过60%是虚假的,那么可以安全地假设它是由ai生成的,至少大部分是。在下面的截图中,您可以看到说96%的内容是虚假的,这是我完全使用ai生成的。
#3. gptzero
如果您想要准确了解哪些内容是由ai生成的,那么gptzero是一个不错的选择。gptzero不会对内容进行评分,而是突出显示可能由ai生成的确切内容。
尽管它确实显示困惑度和爆发度分数,以了解文本中的随机性,但更重要的是,它支持每次扫描5000个字符,并且还可以上传文件。扫描大量内容可以极大地提高准确性。
#4. gpt-2 output detector
chatgpt的创建者还提供了一个用于检测他们自己作品的机器人。由于gpt-2和gpt-3在训练时使用的总数据量不同,因此这个gpt-2检测器也适用于基于gpt-3的ai。
它可以扫描任意数量的内容,因此非常适合检测非常长的ai生成内容。我还发现其准确性还不错,特别是对于chatgpt生成的内容。然而,它的预测有点松散,因此仅在它显示超过50%的内容为虚假时考虑其结果。
#5. writer ai content detector
writer ai content detector在检测来自ai写作工具的内容时结果值得怀疑,但对于chatgpt生成的内容效果很好。您可以每次扫描1500个字符,甚至可以添加内容的url(如果已发布)。
对于我的测试ai生成的文本,它说94%的内容是由人类生成的,与其他工具相比相当不准确。尽管如此,仍然值得用来检测chatgpt内容,特别是如果它已经发布。
#6. draft & goal
这是一个简单但功能强大的ai写作检测工具。根据我的经验,draft & goal的结果与content at scale类似,但它没有字数限制,因此可以扫描长篇文章。然而,根据扫描的内容量,其扫描时间会增加。
对于我示例的文本,它说94%的文本是由ai生成的。
手动检测ai抄袭 🕵️
chatgpt在ai抄袭方面甚至都不是一个大问题。有许多基于相同的gpt-3技术并专门用于写作的替代工具。这些工具非常先进,专门用于创建难以捉摸的类似人类的内容。
自动检测工具对于内容类型、长度和复杂性的判断有时是准确的,有时是不准确的。所以目前至少来说,手动连接各个点来判断写作是否由ai生成是最好的方法。
下面我列出了一些常见线索,可以用来捕捉到由ai生成的内容。
#1. 过时的信息
chatgpt和其他基于gpt-3的ai在2021年底之后的知识就被截断了。即使一些ai机器人内置了一个用于查找最新信息的搜索引擎,它们仍然依赖于旧数据来写长篇内容,比如论文或博客文章。
如果你注意到写作经常谈论过时的数据,特别是2021年之前的数据,那么很可能是由ai生成的。
在下面的截图中,我让youwrite告诉我最近的世界杯情况,结果它给出了以下回答。
它谈论的是2018年的世界杯,而不是最近的2022年的世界杯。即使这个工具已经更新以谈论最近的事件,比如2022年的世界杯,但对于写长篇文章,它仍然使用它所建立的过时数据。
#2. 使用相同的句子结构进行描述
在描述多个产品/应用程序时,ai通常使用相同的句子结构,然后进行编辑以适应产品的描述。这些描述通常以相同的词开头,比如”the”、”it”、”a”或产品的名称。描述也有一个专注点,它会重复出现。
例如,下面,我让chatgpt告诉我关于”数据录入工作网站”的信息。你可以看到所有的描述都以”a”开头,并且有一个严格的焦点。
我也问了youchat同样的问题,它也做了同样的事情,重复了每个网站的名字,并且描述本身看起来像是重述的版本。
如果你分析的写作中有类似性质的描述,那么这是发现ai写作的一个很好的方法。
#3. 使用短句子
对于大多数写作,ai会使用单行句子,最多只有一个逗号。也许它们试图减少错误的机会,但它们避免写过长的句子,这可能需要使用冒号、分号或重型横线。
我知道这不是发现ai写作的最好线索,但值得考虑以进一步证明你的怀疑。
#4. 可能提供错误的信息
对于通常涉及某种说明的复杂问题,ai可能无法理解意图并提供错误的信息。我这里指的不是过时的信息,而是当它们没有理解主题时,它们自信地给出错误的信息。
例如,我让youwrite告诉我”如何在没有电脑的情况下root一个android手机”。它仍然展示了一些在说明中某个阶段涉及使用电脑的方法。
#5. 不添加个人观点
在讨论某个事物时,ai只会谈论已知的事实。与人类不同,它不会谈论自己对此的个人经历。虽然可以指示ai创建实践性的写作,但它们通常默认避免这样做。
如果你注意到这篇写作只谈论众所周知的事实,那么很有可能是由ai写的。例如,在谈论一个应用时,它将会谈论其功能,而不是导航的流畅程度或如何实际使用该应用。
#6. 简短的解释
由于ai受限于当前可用的知识,它们倾向于写简短的解释和描述。根据我的经验,如果它们谈论一个特定的主题,比如android root,它们的解释通常不超过2-3段。对于应用程序或产品等事物,描述通常不会超过1段。
人类可以对某个事物进行深入的描述,包括功能、限制、个人经验、定价等等。而ai通常只关注主要功能或亮点,所以写作也很简短。如果要求提供更多细节,错误信息的可能性显著增加。
#7. 检查写作者的历史
作为教师或网站管理员,如果你可以访问写作者之前的作品或任务,将其与你怀疑的写作进行比较可能是个好主意。很有可能写作者的写作风格与ai相似。尽管ai可以改变写作语气,但它选择的风格相当通用,无法模仿你的语气。
以这篇文章开头的ai生成的段落为例。任何已经阅读过我之前的文章的人都可以轻松看出,我的写作风格与它完全不同。
你只需要阅读写作者的2-3个之前的作品,看看它们是否与怀疑的写作风格匹配。
我的想法 💭
我个人认为,ai的帮助实际上是消除写作障碍、将所有信息整合到一个地方并找到灵感的好方法。然而,它永远不应该取代人类的写作,因为ai只限于已知的知识。
您还可以探索一些最佳的检测工具来防止抄袭。