2026 年 1 月,BMJ 发表了一项研究。
研究团队利用 AI 模型,筛查 1999 年至 2024 年间发表的 260 多万篇癌症相关论文,发现超 25 万篇疑似出自「论文工厂」
其中,中国机构相关的论文中,有超过 17 万篇被标记为高风险,占中国癌症研究总量的 36%。
AI 能在极短时间,判断出造假论文
AI 不仅能用于辅助写作,也能用于筛查问题论文。
传统的专家同行评审,受限于个人精力与阅读量,通常只能在个别稿件中察觉写法「怪异」或结构异常的问题,很难进行大规模、系统性的排查。
相比之下,AI 展现出了人类无法企及的跨时空比对能力。
AI 可以跨期刊、跨年份、跨数据库进行批量分析,在海量文本中识别出论文工厂反复使用的模板结构与语言模式。
这项研究正是基于这一思路,开发了一个新的 AI 模型,通过分析论文标题和摘要中的文本特征,识别与已知假论文相似的表达模式。

图源:BMJ
先从 Retraction Watch 数据库中提取了 2202 篇已确认的论文工厂产物作为阳性样本,同时选取 2202 篇来自高影响力期刊或高科研诚信国家的论文作为阴性样本。
将这些数据输入模型进行训练,学会区分两类文本,重点捕捉生硬表述、模板化句式、重复结构,以及疑似凭空构造的数据引用等特征。
在模型训练完成后,对 260 万篇论文逐一打分,给出风险评级。
如果完全依靠人工逐篇审阅数百万篇文献,可能需要数年时间,且仍难以保证一致性与覆盖率。借助 AI,这一整套流程可以在极短时间内完成。
国内超 17 万论文,可能是论文工厂产物
AI 检测器运行后,约 26 万篇论文(9.87%)被标记为疑似论文工厂产物。
这个比例本身已相当惊人。更值得注意的是,此前对生物医学领域的整体估算约为 3%。
也就是说,在癌症研究领域,疑似污染程度是总体均值的三倍以上。
其中,中国机构相关论文中,超过 17 万篇被标记,占中国癌症研究论文总量的 36%。

图源:BMJ
从时间趋势看,被标记论文数量整体呈上升趋势,在 2022 年前后达到峰值,2023 和 2024 年略有回落。

图源:BMJ
这个时间点颇耐人寻味——正好处于生成式 AI 大规模普及前夕。
高影响因子期刊也未能幸免,顶级期刊中疑似论文工厂文章的比例同样超过了 10%。
研究团队的原话是:「论文工厂正在以工业规模生产研究,我们的发现表明,问题远比大多数人意识到的严重得多。」
问题的代价不仅是学术诚信。
作者表示,一旦伪造研究混入证据体系,可能误导研究方向,浪费科研经费,甚至触发无效或有害的临床试验。
最终耽误真正有用的医学发现,代价落到真实的患者身上。
但这个工具本身,也有局限性。
研究者强调,AI 模型给出的只是基于文本模式的统计学预警。被标记表示写法可疑,不等于造假成立,其中被标记的论文中可能有约 30% 属于「误报」。
更值得警惕的是结构性风险,模型有可能把非母语作者的写作习惯、或者经过润色软件处理后的特定句式,误判为「模板特征」,意味着它可能在无意间对某些地区的研究者造成系统性误伤。
作者试图通过假阴性数据分析来说明模型并非针对特定国籍,但这种潜在的地域偏差,在跨国学术评估中依然是一个悬而未决的问题。
AI 对抗 AI,没有终点的军备竞赛
再来看模型本身的性能。
内部验证准确率为 91%,外部验证为 93%,外部验证特异度高达 99%。
换言之,它极少「冤枉」正常论文。主要误差来自假阴性——那些未被识别出来的论文工厂产物。
这个误差方向其实很说明问题。模型最容易放过的,恰好是伪装得最好的那批。

图源:BMJ
而论文工厂,正在朝那个方向进化。
早期的造假逻辑很粗糙:填空模板、重复文本、捏造数据,特征明显,AI 一扫就中。
但现在生成式大模型可以写出语调自然、结构合理、多样化程度极高的文本,不只是摘要,还能伪造实验数据、生成逼真的医学图像。
生产成本在下降,迷惑性在升。与此同时,正常研究者也在用 AI。
研究显示,在 2000 余名医学研究者, 45% 明确表示曾用 AI 聊天机器人辅助写作,这个比例还在上升。
真正棘手的问题在这里:同样是 AI 参与生成的文本,一种是合规的语言润色工具,另一种是批量造假的流水线产物。
AI 检测器如何区分?
技术层面的边界,正在变得模糊。基于固定模板特征的识别逻辑,将逐渐失效,检测工具必须持续迭代升级。
因此,现在的问题已经不是「要不要引入 AI 检测」,而是怎么把它嵌进常规审稿流程——图像造假要检,文本生成也要检,而且要一直检下去。
这是一场没有终点的军备竞赛,而且双方都在用同一套武器。
编辑:ifhealth 来源:丁香园
