论文查重 | 论文文献库 | 学术不端检测的难点及对策

学术不端行为是全球学术界普遍存在的现象, 具有非常大的危害,必须采取有效措施来全面抑制 学术不端行为。由于科研从业人员数量大、涉及的 范围较广,因此不能完全依赖于科研人员的道德自 觉或学术伦理、学风建设,而必须借助于他律性、常 规性的制度来加以约束。建立与完善有助于学术活 动健康发展的管理体制与运行机制,才是防范与杜 绝这些不良现象的最好办法。
长久以来,主要通过举报、民间打假等办法来发 现学术期刊出版过程中存在的学术不端行为,不仅 效率低、准确率不高,而且容易带来其他负面影响, 如因为个体事件造成公众对学术界的怀疑、攻击。 2008年年底,同方知网的“学术不端文献检测系统” 问世,实现了对我国学术期刊出版过程中稿件内容 的技术性手段监管论文查重,大量存在抄袭剽窃行为的学术 论文被发掘出来,从而有效遏制了学术不端现象的 进一步蔓延。
学术不端研究也已成为近年的研究热点,已 有的研究主要集中在学术不端行为的起因、防范 措施、技术检测等方面。虽然学术不端现象 得到一些遏制,但还是没有完全消失。“道高一 尺,魔高一丈。”随着技术的发展,许多隐性学术 不端行为悄然出现,如抄袭内容的部分改写、图 片改写、外文翻译、代写代发论文等,许多编辑部 也针对这些现象进行了探讨,并总结经验供业界 同行参考。但是学术不端行为的检测需要强 大的技术支持,针对隐性学术不端检测的难点, 同方知网数字出版技术股份有限公司对论文检 测技术进行深入探索,采用神经网络方法对检测 技术进行升级,并取得了一定的效果。本研究针 对学术不端检测中出现的难点问题,从技术、使 用规范以及制度等角度提出解决方案,以期帮助 期刊界同仁更好地发挥学术不端检测工具的最 大功效,为科技期刊遏制学术不端提供有力的技 术支持与保障。
1学术不端论文查重检测现状
利用中国知网学术期刊数据库,通过对2013年 到2017年发表在学术期刊上的文献进行论文查重,对各 重复比例的论文数量占当年总文献量的比例进行统 计分析,结果如图1所示。可以发现:高重复比例论 文占比明显下降,其中重复比例超过50%的论文占 比的下降尤为明显;2015年之后,高重复比例论文 占比一直保持着较低的数值。
另外,对985院校博士学位论文进行了检测,结 果如图2所示。可以发现,各重复比例的论文占比 变化过程中存在两个较为明显的“拐点”:2009年, 学术不端文献检测系统在高校研究生培养单位大规 模推广应用;2013年,《学位论文作假行为处理办 法》颁布。
重复比区问为[30%,50%)以及[50%,100%) 的学位论文占比总体上呈逐年下降趋势;重复比区 间为[10%,30%)的学位论文占比在“拐点1”前变 化相对无规律,之后呈先升后降趋势;重复比区间为 (0,5%)和[5%,10%)的学位论文占比在“拐点2” 之后呈平缓上升趋势。
上述统计数据表明,论文中的抄袭剽窃等学术 不端行为已经得到了明显遏制,其原因主要包括以 下几个方面。
(1)政府等主管部门高度重视科研诚信,相关 政策日趋完善。教育部、科技部近年来陆续出台了 一系列相关的政策文件,2018年,中共中央办公厅、 国务院办公厅正式印发了《关于进一步加强科研诚 信建设的若干意见》,各级单位对学术不端行为的 处理措施越来越完善,处理效率也越来越高。
(2)社会各界态度更为理性、客观,主管部门行 动更加积极、自信。以前,许多单位对内部发生的学 术不端问题避而不谈,或者内部处理,不向社会公布 处理结果。而现在,越来越多的单位将处理结果主 动向社会公开。
(3)抄袭检测等信息技术的普及使用。2008 年,同方知网发布了“学术不端文献检测系统”,目 前该系统在各行各业治理学术不端行为的活动中发 挥了重要作用,帮助发现了一大批抄袭剽窃行为,有 效遏制了学术不端行为的发生。
(4)作者科研诚信意识增强。随着越来越多的 学术不端事件曝光,以及各种诚信教育的开展普及, 科研人员越来越清楚和明白科研诚信是学术研究的 底线。
但这并不能代表学术不端得到了根本遏制或杜 绝,各类学术不端事件仍时有发生。从统计数据上 也可以发现,仍然有存在抄袭剽窃等学术不端行为 的论文没有被检测系统发现而发表出来。因此,改 进检测手段,规范检测系统的使用,加强科研诚信建 设仍有大量的工作要做。
2学术不端文献检测系统使用模式分析
学术不端文献检测系统已经广泛应用于学术出 版、教育、科研等领域,知网对检测系统的使用情况 进行了跟踪调查,发现检测系统在各个领域和各个 单位的使用模式千差万别,而使用模式对检测系统 所产生的效果影响巨大,在科研诚信建设过程中所 发挥的威力也大不相同。
2.1期刊使用模式
学术出版是最早使用学术不端文献检测系统的 领域,十年来,各个期刊编辑部已将文献检测作为期 刊编辑部审稿环节之一,所有编辑部收到的稿件都 需要经过检测系统的检测处理。在使用过程中,各 个期刊编辑部逐渐形成了各自的系统使用模式。使 用模式的不同,在学术不端处理上产生的效果也大相径庭。期刊对学术不端文献检测系统的使用模式 主要包括:(1)设定阈值,稿件的重复比例超过某个 设定数值时,直接拒稿,或走比正常流程更加严格的 单独审核流程,或将检测报告返回给作者修改,等作 者将重复比例降低后再接收;(2)不设定阈值,将检 测结果作为参考依据,由编辑和审稿人审核认定,并 给出处理意见。
2.2学位论文审核使用模式
目前,许多高校都制定了和学术不端文献检测 系统相应的管理制度,如规定学位论文重复比例超 过某个“阈值”,后期核实存在抄袭剽窃后,会相应 地受到返回修改、延期答辩、延期毕业、取消学位授 予等不同程度的处罚。在使用模式上,学校的做法 也存在很大不同,有些高校只给予学生一次学位论 文检测机会,出现抄袭剽窃问题时就会受到相应处 罚;而有些高校允许学生进行多次检测,只要学生在 提交论文截止日期之前能提交合格的版本就行。从 实际使用情况来看,不同的使用模式在学生中产生 的威慑效果存在明显区别。允许学生进行多次检测 的高校,在执行过程中如果不对多次提交的论文作 出明确要求,存在学术不规范、抄袭剽窃的学位论文 初稿数量会更多。
2.3人事职称管理使用模式
目前,学术不端文献检测系统也应用到各行 各业的职称评审及人才选拔等活动中,对候选人 的论文进行审核评估,防止利用存在学术不端行 为的论文作为评审材料。各单位对待评审材料的 方式也存在很大区别。有些单位发现涉嫌抄袭论 文,人工论证后,取消候选人评审资格;但也有部 分单位的做法仅是要求候选人更换其他符合要求 的论文继续参与评审,而不会对候选人有其他相 应处理。
各单位采取的模式和措施对检测系统的使用效 果、对学术不端的处理结果都有较大影响,甚至有些 措施采取的不够完善,结果还适得其反。对于采取 的不同使用模式,究其原因,主要是因为目前业界还 缺乏相应的学术不端处理制度和完善的处理流程, 处理流程和调查机构大都是单位内部规定,其中的 不明确因素较多,一旦涉嫌学术不端处理,存在很大 争议,结果也往往难以令人信服。例如广西某学院 的“院长论文抄袭事件”就是如此。
3当前学术不端检测难点及对策
随着学术不端文献检测系统的普及使用,网络上 也出现了各种规避检测技术的手段,甚至有人还写成 了一本“反抄袭检测”的攻略;还有专门针对目前的使 用模式和管理漏洞而形成的“论文撰写策略”等,这给 学术不端检测带来了新的问题和挑战。根据知网从 不同渠道获得的反馈信息,目前主要存在大面积改写 以降低文字重复比例、将文字内容转成图片以规避检 测、“Google翻译方法”规避检测、论文代写及买卖等 规避学术不端检测的方法,知网针对这几类规避 方法所导致的技术难点进行了专门的研究,在一定程 度上就如何改进学术不端检测提出了新的解决办法, 但要想完全解决这些难点,还需要技术提供商、期刊 编辑部以及相关部门单位加深合作,人机结合,让学 术不端检测工具发挥出更大的作用。
3.1大面积改写以降低文字重复比例
利用计算机来分析论文是否存在抄袭,主要是 根据文字的相似程度进行判断。因此,有些作者就 会对文章进行大面积改写,以此来规避检测。图3 所示为大面积改写论文的真实案例。对于以字词为 基础的比对分析技术来说,这种改写就可以规避检 测,蒙混过关。
针对这种情况,同方知网采用神经网络方法对 学术不端文献检测系统对比对技术进行升级,从而实现对这一类改写行为的有效检测。同时,知网根 据实际使用情况,对该检测系统的运行模式进行了改造,对观点类内容进行“意思抄袭检测”,而对其 他内容,仍保留原来的检测方式(图4)。
由于一般的检测系统只是对文字内容进行检 测,对图片等不作处理。因此,有些作者就将涉嫌抄 袭的整段文字变换为一张图片,然后将这张由文字 组成的图片插入到Word文档的相应位置(图5),不 仅肉眼很难分辨出来,一般的检测系统在处理的时 候也会忽略这张图,从而检测不到抄袭行为。针对 这一现象,知网的学术不端文献检测系统专门引入 了光学字符识别(Optical Character Recognition, OCR)技术,对论文中的图片进行自动识别,根据识 别结果,利用数据分析手段,自动判断哪些是刻意由 文字转换成的图片,哪些是正常图片,从而有效地保 证了检测结果的准确性。2018年,这一功能被嵌入 到学术不端文献检测系统,引起各大使用单位的广 泛关注,并发现了一批试图利用图片规避检测的 行为。
3.3“Google翻译方法”以规避检测
一些作者发现经翻译软件翻译之后,论文的语 句发生了变化,因此他们就找一篇已正式发表的论 文,采用Google在线翻译服务把论文翻译成英文;然后再将翻译好的英文用Google在线翻译服务全 部转回中文;最后,作者把得到的中文文献中的语病 进行修改,一篇新的论文就完成了。针对这一行为, 目前,知网的学术不端文献检测系统已经支持中英 双语对照检测和语义检测,即“翻译抄袭”也可以被 检测出来,只要比对库中存在相应的语种文献,就可 以实现检测。自该功能上线以来,知网的学术不端 文献检测系统已经发现了6000多篇涉嫌翻译抄袭 的文章,而对于这种翻译之后再翻译的情况,该检测 系统也有了较好的语义检测技术,基本上可以发现 此类学术不端论文。
3.4论文代写及买卖
根据电商平台方面的检索信息发现,论文买卖 在现实中真实存在,且交易额巨大,涉及的行业也很 广,这种行为对整个学术环境和科研环境造成的影 响十分恶劣,是一种极其严重的学术不端行为,但这 种学术不端行为的发现难度较大。目前,知网已经 完成了一些数据方面的分析以及文章写作风格的分 析实验,初步实验证明,技术手段可以为论文代写和 买卖提供一些有效的线索。例如,笔者对某论文网 站的文献进行分析时,发现一系列关于“茶文化”的 文章,涉及的领域千奇百怪,通过大量的数据分析, 可以获得一些规律来判断一篇论文是否存在代写的 可能性。此外,也可以对大量文献的数据进行挖掘 分析,从用词、句子、段落等维度分析作者的写作风 格,分析同一作者的不同论文,或者同一论文里的不 同部分,判断写作风格是否相似,如果不相似,则存 在代写和买卖的可能。
4 制定相关规章制度并加以规范使用以 更好地发挥技术工具的威力 构建学术诚信工作体系,遏制学术不端行为,需 要社会各界共同努力,加大科研诚信教育,改进评价 考核制度,大力宣传优良学风等。更需要作为政策 制定和推行的行业相关主管部门从整体着手,采用 包括技术手段、管理手段和教育手段等在内的多种 手段和方法来推动各个行业的整体进步。具体而 言,笔者认为应该加大以下几个方面的管理和执行 力度。
4.1加强行业交流。形成对技术工具的使用规范 当前学术不端文献检测技术虽然存在一些不完 善的地方,但对于发现学术不端行为、遏制学术不端 现象发挥了不可替代的重要作用。同时也发现,在一个行业,例如期刊界,各个期刊编辑部对学术不端 文献检测系统的使用千差万别,一些期刊编辑部没 有在实际工作中利用好这一技术工具,也没有学习 其他期刊编辑部的先进管理制度的机会和渠道。因 此,加强行业交流,分享好的经验,形成一个行业内 使用学术不端文献检测系统的规范流程是一件重要 的工作。
4.2各级各类单位要更主动拥抱信息技术
自学术不端文献检测系统发布以来,一直有一 种声音认为,由于技术工具存在不完善的地方,功能 还不够强大,或者是使用模式存在一些问题,因此使 用技术工具来检测文献存在的学术不端,反而会带 来更隐蔽的学术不端现象。随着这10年的发展,学 术不端文献检测系统已经较为成熟,功能也较为强 大,可对文献中存在的抄袭剽窃等学术不端行为进 行准确判断,并可以作为各单位治理学术不端的有 效措施之一。因此,各级各类单位应该更加主动积 极地拥抱技术工具,制定相关的规章制度,主动采取 措施来遏制学术不端行为的发生。
4.3加强论文完成的过程管理
无论是在期刊上发表的学术论文还是学位论文, 在论文完成的过程中,如果实现了对论文全过程的有 效监控管理,就可以有效遏制论文的代写买卖:编辑 可以通过论文完成的过程管理来了解投稿作者的论 文完成过程;高校导师可以通过论文完成的过程管理 来了解到学生学位论文的完成情况。只有加强过程 的管理,才能从源头上有效遏制学术不端行为。
4.4非涉密论文公开化
对各类论文如学位论文应采取积极主动公开的 措施。学位论文公开化,就是将非涉密的学位论文 在网络等开放环境中公开,允许公开查阅,接受社会 公众的监督,能有效杜绝作者的作假行为,也增加了 学术不端行为被发现的概率,从而敦促学生认真对 待自己的论文,提高学位论文的写作质量,也控制了 学术不端行为的发生。
4.5对学术论文进行监控和定期检查或抽查
目前,我国的论文产出数量已经跃居世界第一。 在目前的条件下,结合技术工具,我们已经完全可以 实现对学术论文的全方位监控,再结合人工,对疑似 学术不端的论文进行定期检查或抽查不失为一个可 行的办法,可进一步预防学术不端行为的发生。定期 检查可避免出现一时蒙混过关的情况,也给作者带来 更大的威慑力,以敦促作者认真撰写论文。此外,随 着社会的发展,知识在不断发展,在学术论文归档后 一定年限内对其进行检查,也能有效避免作者盗取国 内外尚未传播的他人成果等类似行为的发生。

相关文章:大学生对网络小说中抄袭作品的阅读接受心理研究