粗心学者忘删ChatGPT痕迹惨遭撤稿！Nature痛呼AI论文太泛滥，学术圈已被攻陷

来源 | 新智源 ID | AI-era

科研圈，快被ChatGPT生成的论文吞没了！

8月9日，一篇收录于<Physica Scripta>期刊上的论文，提出了一种复杂数学方程的全新解决方案。

论文地址：https://iopscience.iop.org/article/10.1088/1402-4896/aceb40/meta

本来是皆大欢喜的事，直到科学打假人Guillaume Cabanac在论文的第三页，发现了一处可疑的短语——「重新生成回复」（Regenerate Response）。

经常用ChatGPT的小伙伴，看到这个短语，都会会心一笑。

「Regenerate Response」是网页版ChatGPT上的一个按钮，现在更新成了「Regenerate」。

Cabanac火速把这一发现po到了PubPeer上，这也意味着，事情闹大的话，这篇论文基本就被判死刑了。

果然，论文作者不得不承认，在写作论文稿件时确实使用了ChatGPT。

论文的通讯作者为Abdullahi Yusuf，他有两个工作单位，一个是伊斯坦布尔的Biruni University，一个是贝鲁特的Lebanese American University。

这篇论文在5月被提交，7月发出了修订版，在两个月的同行评审期间，都没有人发现其中的异常。

现在，<Physica Scripta>决定撤回这篇论文，理由是作者在提交论文时，并没有声明自己使用了ChatGPT。

期刊的同行评审和研究诚信主管Kim Eggleton表示，「这种行为违反了我们的道德政策。」

只是冰山的一角

然而，这篇论文，只是少数被曝光出来的「倒霉」选手。

从今年4月以来，Cabanac已经「打假」了十几篇论文，挂到了PubPeer上。它们无一例外，都留下了ChatGPT的使用痕迹——「Regenerate response」或「作为一个语言模型，我……」

所以，写论文时究竟可不可以用ChatGPT呢？

对于这个问题，Elsevier（爱思唯尔）和Springer Nature（施普林格·自然）在内的许多出版商都有明确规定：大语言模型工具用是可以用的，只要作者声明自己使用了即可。

不过目前看来，大部分使用了ChatGPT的同行评审论文，都没有声明这一点。

已经被逮到的论文，只是因为作者粗心，没有小心清除掉ChatGPT留下的痕迹而已。

只要作者足够细心，用没用ChatGPT，又有谁能知道呢？

打假人Cabanac表示，目前自己发现的论文，才只是冰山一角。

在爱思唯尔期刊中，他也发现了一些典型的ChatGPT「黑话」。

比如一篇8月3日发表在<Resources Policy>上的论文，主题是电子商务对发展中国家化石燃料效率的影响。

其中，Cabanac就注意到，文章里有些方程完全就是不知所云。

不过最大的可疑之处在于，在某张表格上方，出现了这样一行字：「请注意，作为一个语言模型，我无法生成具体的表格或进行测试……」

对此，Elsevier的一位发言人表示，他们已经发现了这个问题，正在对这篇论文进行调查。

AI的大作，已经完美混进了人类作品

那么，一篇论文如果完全或部分由AI写成，但作者不说，我们就没有办法发现了吗？

大部分时候，的确如此。

最近美国南佛罗里达大学的一项研究表明，AI生成的文字内容，可能已经无法与人类写的区分开来了。

他们邀请了72名世界顶级语言学期刊的专家，要求他们来审查各种研究摘要，但即使是这样的专业人士，也很难识别出哪些摘要是人写的，哪些是AI写的。

在62%的情况下，他们会被AI骗过去。

具体来说，每位专家都被要求检查四份摘要，能全部正确识别出来作者是人还是AI的，一个都没有。

甚至13%的专家，一个都没做对。

专家们的识别依据是语言习惯和文体特征，尽管他们的分析头头是道、合乎逻辑，但总体的阳性识别率也只有38.9%。

不过，英国科研诚信办公室的Matt Hodgkinson表示，有些论文也会包含一些微妙的痕迹，让我们可以隐约发现ChatGPT的「身影」。比如，一些常见于AI的特定语言模式，以及翻译得怪里怪气的「奇妙短语」。此处浅浅地感受一下：深度神经网络——profound neural organization（深刻神经组织）。

以及人工智能——counterfeit consciousness（仿制意识/虚伪意识）；大数据——colossal information（巨信息）；云计算—— haze figuring（霾运筹）；GPU——designs preparing unit（设计准备器）；CPU——focal preparing unit（焦点准备器）等等。

除此之外，AI在生成参考文献时也是相当的「天马行空」，而这就可以作为同行评审时的重要参考。例如，<Retraction Watch>（《撤稿观察》）就曾揭露过一篇关于马陆（millipedes）的预印本论文是由ChatGPT编写的。在一位研究人员发现文章中引用的一篇「论文」竟然是自己写的后，注意到了这里面提到的大量参考文献，都是假的。

类似的，丹麦国家血清研究所（State Serum Institute）的微生物学家Rune Stensvold也遇到了AI伪造参考文献的问题。当时，一名学生向AI聊天机器人寻求有关肠道寄生虫——芽囊原虫属（Blastocystis）的文献建议，而这个聊天机器人则凭空编造了一篇以Stensvold为作者的参考文献。于是，这位学生就去找了Stensvold，表示希望能获取这篇他发表于2006年的「论文」。显然，这篇论文根本就不存在。

然而，正如之前提到的，对于这些明显会暴露论文使用了AI的痕迹，聪明的作者很容易就能把它们删得一干二净。如此一来，想要发现是否实用了AI，就变成了一个不可能的任务。Cabanac等打假人发现，无论是同行评审的会议论文，还是未经同行评审的预印本论文中，都存在大量使用了ChatGPT但未披露的情况。当这些论文被挂在PubPeer上之后，有部分作者会承认的确使用了ChatGPT，但并未声明。Hodgkinson表示：「本质上，这是一场军备竞赛。就看骗子和侦探谁能胜出了。」

学术界要被攻陷了！

总之，形势已经很严峻。

Elisabeth Bik已辞去工作，成为大众知名的专业打假人旧金山的一位微生物学家、独立研究诚信顾问Elisabeth Bik表示，ChatGPT和其他生成式AI工具的迅猛崛起，为「论文工厂」提供了充足的弹药。这是一条完善的产业链：这些公司大量生产和炮制出虚假的论文，卖给急需提高学术成果产量的研究者。Bik说，现在问题已经恶化了一百倍。如今的学术圈，可能已经充斥着一大批AI生产的「垃圾」论文。我们根本无从分辨，哪些是经过认真研究产生的严肃学术成果，哪些是AI炮制出来滥竽充数的「垃圾」。

同行评审：时间紧，人不够

那么问题来了，为什么那些由AI生成的假论文，能屡次通过如此严格的同行评审？一方面，ChatGPT这类的技术还比较新，并不是所有人都能有效辨别；另一方面，同行评审可能根本没有时间来检查这个问题。对此，化名「Smuts Clyde」去揭发伪造论文的David Bimler表示，期刊中那些由LLM生成且未被发现的论文，指向了一个更深层次的问题：同行评审往往足够多的没有时间，来彻底检查稿件中的可疑之处。「毕竟，整个科学界的态度就是『要么发表，要么死亡（Publish or perish）』」，Bimler说，「因此『守门人』的数量永远都不是够的。」

也许，这就是当前残酷的现实：评审论文需要大量的时间和专业知识，但AI只需几分钟就能完成一篇，无论它的质量是多差。参考资料：https://www.nature.com/articles/d41586-023-02477-w