财新传媒
位置:博客 > 于达维 > 大数据大发现|107篇被撤论文中,竟有28篇涉嫌抄袭

大数据大发现|107篇被撤论文中,竟有28篇涉嫌抄袭

7月27日,科技部通报了此前国际医疗期刊《肿瘤生物学》撤销107篇中国论文的核查结果。这107篇论文共涉及作者521人,在486个不同程度存在过错的人中,102人为主要责任人,70人为次要责任人,314人没有参与造假,11人无过错,其他24人尚待查实,将按程序先纳入科研诚信“观察名单”。
 
这次在国际上闹得沸沸扬扬的论文撤稿事件,可谓是揭开了中国庞大的论文造假产业的冰山一角,也让在论文发表数量上排名第一的地位,失色不少。
 
当然这也引发了对于某些国际期刊发表标准过低的指责,这些期刊往往没有几个专业编辑,没有足够大的专家库提供评审,反而让论文作者自己推荐评审专家,这也为造假者提供了发挥的空间。
 
科技部的核查发现,107篇论文中,有101篇存在提供虚假同行评议专家或虚假同行评议意见的问题,这其中,95篇由第三方机构提供虚假同行评议专家或虚假同行评议意见,6篇由作者自行提供虚假同行评议专家或虚假同行评议意见。
 
其中很多人就是冒用本领域专家的名字申请邮件地址,在专家不知情的情况下,从虚假邮箱向期刊提供正面夸赞论文的审稿意见。
 
如果说伪造评审意见是这批论文被撤稿的原因,那么这批来路本来就不正的论文,肯定还存在其他问题。
 
通过大数据分析发现,这批论文中还有28篇涉嫌抄袭。
 
以前要想发现抄袭的证据,可能需要被抄袭者举报,但是在浩如烟海的论文库中,主动发现抄袭行为无异于大海捞针。
 
但是依靠论文相似性检测系统和图像造假识别系统,造假论文就难逃法眼了。
 
他们检索的数据库包括美国博士学位论文数据库,美国国立医学图书馆数据库,EBSCO数据库,全球开放获取期刊数据库(DOAJ)谷歌学术数据库,美国各分支学会数据库,美国工程索引,电器电子工程师学会数据库等各大数据库。
 
检测工具就是艾普蕾(iPlagiarism)英文论文相似性检测及版权保护软件系统和猫图鹰图像造假识别系统。
 
科技部委托艾普蕾(北京)科技有限责任公司和贵州赛先生大数据科技信息有限责任公司,对这些文章进行了检测分析,发现了28篇涉嫌抄袭的论文,最高抄袭达到70%。采用猫图鹰检测系统发现,4篇文章的部分图像造假。
 
此外,6篇文章存在高度一致的写作风格。
 
根据艾普蕾软件设定的涉嫌抄袭阈值,相似度达到20%就可能涉嫌抄袭。在这28篇论文中,普遍都在50%以上,最高的一篇甚至高达70%,作者来自来自重庆医科大学第二附属医院。
 
检测结果显示,该论文从摘要、前言、方法、结果和讨论均存在与他人文献较多相似之处,总相似率70%,已经远远超过系统设定的20%的阈值。
 
当然这篇论文的作者还没有傻到70%照搬同一篇论文,而是搬了三篇论文,一篇抄了44%,一篇抄了14%,一篇抄了8%。
 
当然相似指数并不能直接判断一篇文档是否抄袭。
 
如果相似内容全部发生在方法与材料部分,按照国际出版界默认的态度,不能算作抄袭,相反,有的虽然相似指数低,但发生在摘要、前言、结果或结论的重要部分,那也可能涉嫌抄袭。
 
其实,这种软件本身,并不是为了发现抄袭,而是帮助论文作者避免抄袭。艾普蕾就声明说,相似性检测的目的并不是为了发现抄袭、定义抄袭或者指认抄袭,目的是帮助作者在投稿前对论文进行检测,规范写作行为,从而避免因为抄袭撤稿和版权侵犯,保护作者、单位和国家的声誉。
 
显然,不仅这28篇涉嫌抄袭的论文的作者没有做必要的检测,甚至发表论文的国际期刊,也没有做这个检测,否则他们怎么会发表呢?
 
针对这107篇论文的作者如何处理,科技部政策法规与监督司司长贺德方表示,目前已有76篇论文形成了明确处理意见。
 
这76篇论文涉及376人,对各责任人作出取消一定期限承担科技计划(专项、基金等)项目、晋升职务职称等资格,追回所承担的科技计划(专项、基金等)项目经费,撤销获得的科技奖励、学术奖励、荣誉称号等处理决定。
 
工程院还暂停了1名涉事作者的院士候选人资格。
 
但是换个角度看,我们也可以发现这次涉事的论文都是医学论文,涉事的作者都是各地大医院的医生,难道不是因为目前的畸形的评价体系,把医生的前途过多的与论文数量挂钩,才导致假冒伪劣的论文层出不穷,难道医生们愿意这么做,还不是被逼的。
 
针对这一问题,科技部也表示,将加快推进教育、医疗卫生等领域职称改革,启动国家临床医学研究中心临床医生职称评价改革试点相关工作。
 
一般说加快的时候,就是因为快不了。
推荐 1