什么算抄袭?AI 生成的论文带来新风险
研究人员争论人工智能生成的“新颖”作品是否未经授权使用了他人的想法。

今年1月,人工智能(AI)研究员朴炳俊(Byeongjun Park)收到了一封令人震惊的电子邮件。两名来自印度的研究人员告诉他,一篇由人工智能生成的论文稿件引用了他其中一篇论文中的方法,但未注明出处。
Park 查阅了这份手稿。它尚未正式发表,但曾被发布到网上(参见go.nature.com/45pdgqb ),是名为“The AI Scientist”的工具生成的多篇论文之一。该工具由东京一家名为 Sakana AI 的公司研究人员于 2024 年宣布推出。
AI Scientist 是计算机科学领域全自动研究的一个例子。该工具使用大型语言模型 (LLM) 来生成想法,自行编写和运行代码,然后将结果撰写成研究论文,并清晰地标注为 AI 生成的。其背后的团队表示,这是让 AI 系统自主进行研究发现的尝试的开端。
Park 认为,这篇 AI 生成的论文并非直接抄袭他的论文。它提出了一种新的扩散模型架构,这种模型是图像生成工具背后的模型。Park 的论文探讨了改进这些模型的训练方式。但在他看来,这两篇论文确实使用了类似的方法。“我惊讶地发现,核心方法与我的论文如此相似,”在韩国大田韩国科学技术院 (KAIST) 工作的 Park 说道。
给朴槿惠发送电子邮件的研究人员塔伦·古普塔(Tarun Gupta)和丹尼什·普鲁蒂(Danish Pruthi)是班加罗尔印度科学研究所的计算机科学家。他们表示,问题不仅仅在于朴槿惠的论文。
今年 2 月,Gupta 和 Pruthi 报告他们发现了多份人工智能生成的手稿示例,根据他们咨询的外部专家的说法,这些手稿虽然没有直接复制单词和句子,但却引用了他人的想法而没有注明出处。
Gupta 和 Pruthi 表示,这相当于软件工具抄袭了其他想法——尽管其开发者并无恶意。“相当一部分法学硕士(LLM)产生的研究想法表面上看起来很新颖,但实际上却被巧妙地剽窃,其方式使其原创性难以验证,”他们写道。
今年 7 月,他们的研究成果在维也纳举行的计算语言学协会会议上获得了“杰出论文”奖。
但他们的一些发现存在争议。《AI 科学家》团队向《自然》杂志表示,他们强烈反对古普塔和普鲁蒂的发现,并且不承认该论文所研究的《AI 科学家》案例研究存在任何抄袭。就帕克的案例而言,一位独立专家向《自然》杂志表示,他认为这篇 AI 论文的方法与帕克的论文重叠程度不够,不足以构成抄袭。帕克本人也反对用“抄袭”来描述他所认为的强烈的方法论重叠。
除了关于《人工智能科学家》的具体争论之外,还有一个更广泛的担忧。德国锡根大学机器学习和信息科学专家乔兰·比尔 (Joeran Beel) 表示,每年发表的论文数量如此之多,尤其是在计算机科学领域,以至于研究人员已经很难追踪自己的想法是否真的具有创新性。
如果更多基于法学硕士(LLM)的工具被用来生成想法,这可能会加剧科学界对知识信誉的侵蚀。弗吉尼亚理工大学阿灵顿分校的计算机科学家帕辛·肖贾伊(Parshin Shojaee)表示,由于法学硕士(LLM)的工作原理部分是通过重新混合和插入训练文本来实现的,因此它们借鉴早期成果是很自然的。
柏林应用技术大学剽窃研究员黛博拉·韦伯-伍尔夫表示,“创意剽窃”问题虽然鲜少被讨论,但已在人类撰写的论文中存在。她预计,人工智能创作的论文将面临更严重的问题。不过,她表示,与更常见的剽窃形式(例如复制或巧妙改写句子)不同,人工智能很难证明重复使用了创意。
这使得我们很难看出如何自动化检查真正新颖性或原创性的任务,以跟上人工智能合成手稿的速度。
韦伯-伍尔夫说:“没有一种方法可以证明创意抄袭。”
重叠方法
当然,不法分子已经可以利用人工智能故意剽窃他人成果,或改写他人成果,将其据为己有(参见《自然》杂志https://doi.org/gt5rjz; 2025)。但 Gupta 和 Pruthi 怀疑,出于善意的人工智能方法是否也可能使用他人的方法或想法。
Gupta 和 Pruthi 最初注意到这个问题是在阅读加州斯坦福大学计算机科学家司成蕾在 2024 年领导的一项研究时。司成蕾的团队要求人类和法学硕士就计算机科学领域的主题提出“新颖的研究想法”。尽管 Si 的方案包含新颖性检查,并要求人类评审员评估这些想法,但 Gupta 和 Pruthi 认为,该方案产生的一些人工智能想法仍然抄袭了现有研究成果——因此根本不算“新颖”。
他们从 Si 的论文中挑选出了一个人工智能生成的想法,并称其借鉴了一篇于2023 年首次以预印本形式发表的论文。Si 告诉《自然》,他同意这个“高级”想法与预印本的内容相似,但“低级实现上的差异是否算作创新,可能是一个主观判断”。机器学习研究员 Shubhendu Trivedi 是那篇 2023 年预印本的合著者,直到最近还在剑桥的麻省理工学院工作。他表示:“尽管有一些表面上的差异,但法学硕士生成的论文基本上与我们的论文非常相似。”
Gupta 和 Pruthi 进一步验证了他们的担忧。他们选取了 Si 团队公开发布的四份 AI 生成的研究提案和 Sakana AI 发布的十份 AI 手稿,并使用 Si 的方法自行生成了 36 份新的提案。随后,他们请 13 位专家尝试找出 AI 生成的论文与现有论文在方法上的重叠部分。他们采用 5 分制评分标准,其中 5 分代表“方法一对一对应”,4 分代表“混合搭配两到三篇现有论文”;3 分和 2 分代表重叠程度较低,1 分则表示完全没有重叠。“这本质上就是抄袭论文的思想或核心,”Gupta 说。
研究人员还要求专家确定的原始论文的作者对重叠之处发表自己的看法。
包括这一步在内,Gupta 和 Pruthi 报告称,他们收集的 AI 生成论文样本中,有 12 篇达到了 4 级和 5 级,这意味着抄袭率为 24%;如果算上原作者未回复的情况,抄袭率则上升至 18 篇(36%)。其中一些论文来自 Sakana 和 Si 的作品,不过 Gupta 和 Pruthi 只详细讨论了本文中提到的这些例子。
他们还表示,他们在一份由人工智能生成的手稿中发现了类似的重叠(参见go.nature.com/4oym4ru),Sakana今年 3 月宣布,这份手稿已经在著名的机器学习会议——国际学习表征会议的研讨会上通过了同行评审阶段。
当时,该公司表示,这是第一篇通过人工同行评审的完全由人工智能生成的论文。该公司还解释说,他们已与研讨会组织者达成协议,将尝试将人工智能生成的论文纳入同行评审,如果被接受,则撤回,因为学术界尚未决定是否应将人工智能生成的论文发表在会议论文集中。(研讨会组织者拒绝了《自然》的置评请求。)
Gupta 和 Pruthi 表示,这篇论文的核心贡献借鉴了 2015 年的一篇著作,但并未引用。他们的报告引用了该论文的作者——计算机科学家 David Krueger 和 Roland Memisevic 的话,称 Sakana 的著作“绝对不是新颖的”,并指出该论文借鉴了另一篇未引用的手稿。
另一位计算机科学家,布加勒斯特大学的拉杜·约内斯库 (Radu Ionescu) 告诉《自然》杂志,他认为人工智能生成的作品与克鲁格和梅米塞维奇的论文之间的相似度为 5 分。
加拿大蒙特利尔大学的克鲁格告诉《自然》杂志,相关研究应该被引用,但他“如果看到人类研究人员重复使用这种方法,甚至忽略了之前的研究成果,我也不会感到惊讶”。“我认为这个人工智能系统和其他系统在引用相关研究方面达不到学术标准,”他说道,并补充说这篇人工智能论文“整体质量极低”。但他不确定是否应该使用“剽窃”一词,因为他认为该术语暗示重复使用方法的人(或人工智能工具)明知有早期研究成果,但选择不引用。
反击
《AI科学家》背后的团队由英国牛津大学和加拿大温哥华不列颠哥伦比亚大学的研究人员组成,在接受《自然》杂志采访时,他们强烈反驳了Gupta和Pruthi的研究成果。该团队在一封电子邮件中逐一批评道:“剽窃指控是错误的,”并补充说,这些指控“毫无根据、不准确、极端,应该被忽略”。
例如,在 Gupta 和 Pruthi 的论文中讨论的两篇《AI Scientist》手稿中,该团队表示,这些作品与早期论文中的假设不同,并将它们应用于不同的领域,即使方法中的一些元素是相关的。
《AI 科学家》团队表示,专家为 Gupta 和 Pruthi 的分析找到的参考文献,是 AI 生成的论文可以引用的,仅此而已。他们补充道:“他们应该报告的是一些未被引用的相关工作(人类作者经常会遇到这种情况)。”该团队表示,引用 Park 的论文是“恰当的”。至于 Krueger 的论文和第二篇未被引用的手稿,《AI 科学家》团队表示:“这两篇论文是相关的,因此,虽然人类作者不引用这类作品也是常有的事,但《AI 科学家》团队引用它们会更好。”
亚特兰大佐治亚理工学院的机器学习研究员、专攻扩散模型的本·胡佛 (Ben Hoover) 告诉《自然》杂志,他会根据古普塔的标准,将这篇论文与帕克论文的重叠部分打“3”分。他表示,这篇人工智能生成的论文质量远低于帕克的研究,也不够全面,应该引用,但“我不会说它是抄袭。”他补充道,古普塔和普鲁蒂的分析依赖于人工智能生成论文中通用陈述之间的“表面相似性”,而这些陈述如果仔细阅读,与帕克的论文并无实质性的对应关系。伊内斯库告诉《自然》,他会给这篇人工智能生成的论文打2或3分。
Park 认为,这篇论文与他论文的重合度远高于 Hoover 和 Ionescu 的评分。他表示,如果按照 Gupta 的标准,他会给这篇论文打 5 分,并补充道,“它反映出我认为值得关注的、方法论上的高度相似性”。即便如此,他告诉《自然》 ,这并不一定符合他所认为的剽窃的法律或伦理定义。
什么算抄袭
部分分歧可能源于对“剽窃”含义的不同理解,尤其是在涉及思想或方法的重叠时。韦伯-伍尔夫表示,研究剽窃的研究人员与当前争论中的一些计算机科学家对这一术语持有不同看法。
“‘剽窃’这个词,我们应该也确实应该保留给极端的故意欺诈作弊案例使用,”《人工智能科学家》团队写道,并补充说,古普塔和普鲁蒂“严重违反了学术界关于剽窃的既定惯例”。但韦伯-伍尔夫不同意这种观点:她认为意图不应该成为考量因素。“机器没有意图,”她说。“我们没有一个好的机制来解释系统为什么会说出某些东西以及它从哪里得到这些信息,因为这些系统本身就不是为了提供参考而构建的。”
韦伯-伍尔夫本人偏爱的剽窃定义是:稿件“使用了可归属于其他可识别人员或来源的文字、思想或工作成果,但未在有正当理由期待原作者的情况下,正确注明来源”,即构成剽窃。该定义由美国非营利性大学联盟国际学术诚信中心前主任泰迪·菲什曼提出。
Pruthi 表示,尽管对剽窃研究的判定是一个主观问题,但研究人员认为,在他们的量表中,4 分和 5 分“已经足够严重,如果人们知道了,他们就会抱怨”。
Si 和 AI Scientist 团队都表示,如果 Gupta 和 Pruthi 专门请专家来寻找的话,他们也能找到人类撰写的研究论文的例子,这些论文借鉴了早期研究成果的想法,但没有注明出处。
Gupta 和 Pruthi 承认了这一点。在他们的论文中,他们尝试通过考察数百篇计算机科学会议论文的同行评审进行比较,并基于使用法学硕士 (LLM) 的自动化分析指出,这些评审中只有 1-5% 的论文提及了与其 4 分或 5 分相当的抄袭情况。但他们并没有像对 AI 论文那样,邀请专家团队来评审人工撰写的论文。
AI Scientist 团队还补充说,他们已经在论文中表示,一般来说,AI Scientist 会犯引用错误;它应该引用更多相关论文;研究人员应该自己验证该工具的输出。
“我们的论文宣布了一个概念验证,即我们现在已经达到了‘即使不完美,现在也有可能做到’的阶段,”该团队表示。“最终,‘AI 科学家’和类似的系统很快就会取得显然是全新的重大发现。”
报告还补充道,“我们确实认为人工智能生成的科学具有重大优势”,人工智能软件的质量将会提高,目前,该工具应该主要用于激发创意,研究人员不应该在没有亲自验证其工作的情况下相信其输出。
如何检查新颖性
是否有可能可靠地自动检查人工智能生成的研究,以确保其原创性,以及相关作品得到认可,仍然是一个重大挑战。
例如,当人工智能科学家生成一篇新的论文或想法后,系统通常会通过将相关的搜索查询词(这些词本身由法学硕士生成)输入到语义学者搜索引擎中,来检查其是否原创,以及应该引用哪些内容;然后,另一位法学硕士会被要求评判返回的排名靠前的论文。例如,法学硕士可能会判断人工智能生成的论文与现有论文过于相似,以至于该想法并非原创。或者,在另一个步骤中,系统可能会建议人工智能生成的论文引用一篇更早的论文。
人工智能科学家团队表示,重复这个过程多次“基本上模仿了人类研究人员搜索论文引用的方式”。
但比尔表示,这可能过于简单。很难将一个想法简化为关键词列表,而且搜索引擎的数据库中可能没有完整的论文。搜索引擎在这个自动化过程中返回的热门结果(可能根据引用次数等标准进行排序)很容易遗漏该领域专业研究人员已知的相关研究。尽管目前已有关于自动检测句子语义相似性的研究,但“在想法层面或概念层面进行相似性检查的研究却很少”,新加坡南洋理工大学的人工智能研究员刘岩表示。
Gupta 和 Pruthi 测试了商业抄袭检测工具 Turnitin 和法学硕士 OpenScholar,OpenScholar 旨在通过搜索科学文献来回答问题。他们测试了人工智能生成的论文,这些论文在他们的研究中获得了 4 分和 5 分。Turnitin 没有识别出任何人类专家发现的源论文,而 OpenScholar 只发现了一篇。
但韩国科学技术研究院(KAIST)人工智能研究生Jinheon Baek表示,人类审稿人对这类事情也持有不同意见。他表示,在会议上,他看到审稿人就研究论文中哪些内容才算原创展开争论。“新颖性非常主观,”他说。
一些研究人员认为,如果不先改进抄袭检测步骤,就很难改进用于构思科学想法的自动化工具。“重要的是这些工具已经存在。我们需要找到正确的使用方法,”新加坡国立大学计算机科学研究员 Min-Yen Kan 说道。
Si 表示,他很欣赏 Gupta 和 Pruthi 的研究。“对于从事人工智能研究的科学家来说,我们应该以更高的标准来要求自己,判断哪些研究才是新颖且优秀的。”他说道。
自然 644 , 598-600 (2025)
doi: https://doi.org/10.1038/d41586-025-02616-5