躲避论文检测的花样

重复和剽窃的文本会造成有害影响:它们会扭曲学者的真实学术成果,使文献更加难以理解。这一点不能容忍,而那些不可靠的数字并非解决之道。我多年来一直就有问题的出版物与期刊编辑保持通信。重复出版物是指那些文本(甚至数据)基本相同,并至少有一名相同作者的。在某些案例中,这些论文的标题和摘要不一样,并且添加、删除或重新排列了作者。


我联系的一些编辑对此深表惊讶。他们使用论文查重软件,希望这能帮助他们更好地识别论文中可能出现的抄袭。但能够逃开检测的方法太多了。重复文本的潜在来源,如博士论文,可能存储在某知识库中或只有付费才能查看,从而无法进行对比。巧妙改写(甚至通过算法改写)的文本也会低于检测阈值。


今年提交给世界研究诚信会议(WorldConferenceonResearchIntegrity)的摘要都经过了软件分析,文本重复阈值设定为30%。事实上,在提交的449篇摘要中,38篇超过了这个阈值。经调查,15篇被认定为抄袭,23篇包含了作者之前已发表的研究中的文本。其中绝大多数摘要都被拒稿了,对于某些作者重复利用自己文本的情况,其摘要被降级为海报。剽窃和重复达到这种程度,真是令人震惊,特别是在一场关于学术诚信的会议上,这种情况还有可能被低估了。


软件无法判定剽窃,它只能发现一些文本相似的情况。这些系统可用于标记问题,但无法用于区分原创和剽窃。这种决定必须由人做出。定位剽窃最重要的方法是阅读文本,研究参考文献,从中寻找不一致之处。用一段话中的三五个词,或一个特别漂亮的措辞转变,通过互联网搜索引擎进行抽查,便能够揪出抄袭者。搜索一条看起来奇怪的参考文献可能会返回一篇以相同方式弄错了的源文献。只有当文本不在线,在线搜索毫无帮助时,才应求助于软件系统。在这些情况下,最好使用两到三个系统,并阅读检测报告,而不要不加辨别地采纳其生成的数字。


学术诚信是一个社会问题,尽职调查不能完全依赖于未知的算法。维持科研诚信取决于那些愿意努力保护文献的科学家们。


2020-08-12 14:46:00