运用SMLC系统检测法学类论文存在误检问题及对策-论文文献库-查重宝

论文查重  | 论文文献库  | 运用SMLC系统检测法学类论文存在误检问题及对策

自2008年12月26日中国学术期刊(光盘版) 电子杂志社开发完成《社科期刊学术不端文献检测系统(SMLC)》(以下简称SMLC)、《科技期刊学术不端文献检测系统(AMLC)》(以下简称AMLC) 和《学位论文学术不端行为检测系统(TMLC2)》(以下简称TMLC2)，这些系统为规范我国学术不端行为起到了重要作用。这个平台的建设对提高我国科技发展水平、加快科技期刊强国，对全面建设小康社会、加快推进社会主义现代化、实现中华民族伟大复兴具有重大而深远的意义…。如今上述系统已经整合升级为CNKI科研诚信管理系统研究中心，检测范围也从原先的期刊论文和学位论文，扩展到了大学生论文管理系统(本科版和高职高专版)、大学生毕业设计(论文)管理系统、中学生作业检测系统、全国人事职称评审论文管理系统、科研成果检测系统、图书专著检测系统和工作总结抄袭检测系统。近日AMLC更是开发出英文界面的英文论文查重beta版。检测内容也从最初的中文文本、数据和表格等扩展到中英文文本、表格、图像图形、表述结构、实验设计等极其丰富的内容。检索对比库收纳的数据内容更是空前庞大，数据的更新速度亦随着网络“优先出版”技术的成熟与规范得到极大提升。尽管随着科学技术的发展，上述学术不端文献检测系统的功能与服务都有了长足的进步，但是在使用SMLC检测法学类论文时，论文查重结果的误检情况仍较多。科技为人所用应以人为本，如果因出现误检而导致论文初审未能通过，令编辑与好文章失之交臂，确实可惜。据此，笔者以“误检问题”为核心，设计《学术不端系统使用问题调查问卷》，向学术期刊编辑、高校法学学者和法学研究生发出调查问卷200份，回收133份。其中有效回答133份(其中学术期刊编辑33人，作者100人)。下文笔者将结合自身的工作实践以及问卷情况对误检情况进行论述，从合理对待误检的角度出发提出有益建议。
一、社科期刊学术不端文献检测系统误检情况
“误检”是文献检索的专有名词，是指用户检出的文献，有的符合需要，有的不符合需要，甚至有些需要的文献未被检出‘21。本文所指误检，是指论文检测者使用社科期刊学术不端文献检测系统 (SMLC)检测法律类论文时，对比结果出现以下三种情况：第一，将合理引用的内容认定为抄袭；第二，应该列为抄袭的内容未列出；第三，同一文本用不同存储格式检测出不同的结果。根据调查问卷，以下内容(表1)被认为属于误检内容：
从表1可知，51．88％的被调查人员因“专业术语的描述”被认定为重合，46．62％的被调查人员因“常识性描述”被认定为重合，而“地名、行政机关名称”“案例文字性介绍”和“事实性数据”被认定为重合的概率也都高达24．06％、29．32％和 27．07％。更有甚者，连日期、公式(法经济学里涉及经济学的公式)、序数词、关联词、毕业论文致谢词、古文引用部分，也都被认定为是重合。
(一)将合理引用的内容认定为抄袭
法学是以法律现象为专门研究对象的学科，它所研究的法律现象包括法律意识、法律文化、法律制定、法律事实、法律监督、法律行为、法律规范、法律秩序、法律体系等，都涉及宪法与行政法、刑法、民法、商法、经济法、合同法、刑事诉讼法、民事诉讼法、行政诉讼法和国际法的法学分支学科的法律现象’3 o。撰写法学论文的过程中，在论证时将不可避免地会使用到法学专有名词、法律事实、法律法规名称、条文和法律判例等，而这些内容的字数有时候会很长，若将这些具有共性和普适性的内容列为抄袭，法学论文的重复率将异常高。鉴于上述情况，可以说，复制不能一律等同于抄袭。41。 1．法学术语。在进行法学论文的写作时，必须使用专业法学词汇，也即法言法语，否则无法表达出法学研究的精确与严谨。例如“民事行为能力的划分”“完全限制民事行为能力”“法律关系的构成要素”“公民的基本权利和义务”和“中外合资经营企业”等等，诸如此类还有许多，而这些最普通的法学研究表达，如果再添加上关联词或者序数词，其字数将会轻易地超过学术不端软件的最低检测标准，这些表述也会被认定为是抄袭。
2．法律法规名称、条文和司法解释。在法学论文写作中，为了论证某一事实是否符合法律规范，是否侵犯了当事人的权益，不可避免地会引用到法律法规的条文。而从规范写作的角度出发，引用法律条文必须注明来源与内容。例如：2001年最高人民法院《关于适用中华人民共和国婚姻法>若干问题的解释(一)》、2003年最高人民法院《关于适用中华人民共和国婚姻法>若干问题的解释 (二)》和2010年11月15日最高人民法院《关于适用中华人民共和国婚姻法>若干问题的解释 (三)》(以下简称“解释(三)征求意见稿”)第六条：“夫妻一方的个人财产在婚后产生的孳息或增值收益，应认定为一方的个人财产；但另一方对孳息或增值收益有贡献的，可以认定为夫妻共同财产。”这段话即因所描述的法律法规的名称和条文字数太多，在检测时所有法条和日期都被列为重复，而部分法条内容更直接被认定为剽窃文字表述。
3．指导性案例。最高人民法院每年搜集基层法院的经典判决将其汇集，并不定期在最高人民法院网站公布同时集结成书，法学学者对这些案例进行研究时必然需要先对案例进行介绍，那么在介绍案例并注明引用的时候，相同的案例就会有三个正规来源：1)判决书；2)最高人民法院官方网站； 3)《最高人民法院指导性案例》丛书。不同的作者从不同的来源注明同一个案例引用的时候，SMLC 就会将后续检测的文章认定为是抄袭。
4．名家的经典表达。法学名家在一些公开场合，例如在会议、演讲、讲座和电视访谈节目中对法学问题的经典评述，已经被学界众所周知的法学名家观点或者名言，在SMLC检测中也极易被认定为是抄袭。因为这类经典表述一般直接写出某某认为、某某的观点是，而不写作某某在何时何处评论道“……”，因此首次引用该名家观点的论文就被默认为是出处，这是极不合适的，毕竟这并不是该作者的观点，而是法学名家的观点。
(二)应该列为抄袭的没有列出来
1．首次引用不规范导致的误检。在SMLC系统数据库建立初期，并不能收纳所有的法学著作，尤其在纸质年代很难发现学术不端行为”o，而 SMLC系统数据库又是建立在日益增多的学术论文之上，这就导致那些没有对引用内容作规范性标注的法学论文成为某些文字的“首创”对比样本。而此后的其他法学论文即便是正规地引用了专著的内容，也会因为与“首创”样本重复而被认定为是剽窃文字表述。
2．翻译抄袭。随着SMLC系统的日臻完善，现在已经很难通过“复制粘贴”去完成一篇学术论文，因此有些作者开始走向“翻译抄袭”之路，通过翻译外文学术文献进行抄袭性写作，而这其中以翻译英语文献居多。在笔者对论文进行初审时，往往会发现有部分文字段落的论述不符合中国文字表达习惯，句式结构往往是英语的长而复杂、多代词、多被动和多从句的句式结构。这一类论文经过初审的仔细识别以及送该领域的专家外审，有部分能辨别出是翻译抄袭和抄袭了哪些著作，然而SMLC系统暂时无法有效辨别翻译抄袭。翻译抄袭现象屡禁不止，甚至在某些领域出现了变本加厉的苗头¨1。 (三)同一文本用不同存储格式检测得出不同结果《暨南学报》编辑部采用网络投稿系统，该系统要求作者在投稿时上传电子版稿件，稿件格式可以为doe、docx、wps和pdf。笔者发现在使用SMLC 系统对文章进行初审时，同一稿件若使用不同储存格式进行查重，将得到不同的结果。以《暨南学报>>2016年第6期刊发的一篇文章为例，该文如果使用doe和wps格式进行检测，得出总文字复制比均为14．6％，去除引用文献复制比均为12．5％，单篇最大文字复制比均为4．8％。若使用pdf格式进行检测，得出结果则总文字复制比减少为13％，去除引用文献复制比减少为11．1％，单篇最大文字复制比减少为3．1％。对比两份文本复制检测报告单(全文标明引文)可知，SMLC系统在识别doe 格式文本时总字数识别为10319，而识别pdf格式文本时总字数识别为8459。对于该文本而言就是少检测了18．6％的字数，这足以影响一篇文章的检测结果。
二、解决学术不端文献检测系统误检的对策与建议
(一)建立查重白名单
建议SMLC系统从后台监控高重复率数据，每隔一段时间就对重复率极高的内容进行归纳总结，建立查重白名单。将法律专业术语、法律事实、法律法规名称、法律条文、司法解释、指导性案例(判决书)和法学名家经典表达列入其中，将白名单内的内容从抄袭与重复中剔除。否则文章作者为了降低重复率而花费大量时间改写法律专业术语、法律条文的内容或者指导性案例的真实案情，将扭曲创立SMLC系统的目的与其学术监督意义。
(二)及时更新数据库内容
随着我国法治建设的逐步进行，每年都有大批的法律被颁布、修改和实施。最高人民法院每年都会公布一批指导性案例，每天都会产生新的判决并被公布在其官方网站上。笔者建议SMLC系统及时更新这些数据，并将其列入查重白名单。另外，学术性博客的文章也应当被列入查重资料的来源中来。
(三)补充旧的数据
针对上文谈及因前人首次引用不规范或者没有引用，而导致后人即使规范引用也会被视为抄袭的情况，建议SMLC系统能补充录入我国现存的所有文献，尤其是一些旧版的法学著作与一些在该系统创建之前出版但是在该系统建立之后绝版的法学著作，并纠正系统对这些法学著作内容的认定。
(四)区别对待法学稿件
在实际工作中，应将技术与人工手段有机结合起来¨-，发挥编辑与审稿专家的作用。
1．发挥编辑的作用。编辑部是论文的第一道防线¨-，编辑对于查重率高的法学稿件应该区别对待，如果是纯法学理论研究的文章，编辑应该仔细辨别重复部分是否为法律法条和法律专有术语，如果是实践性强的法学问题研究文章，则要仔细辨明重复部分是否为法律条文、案例或者司法解释等，如果是这些内容重复，则不应该将其定性为抄袭。
2．发挥审稿专家的作用。在对文章进行SMLC 检测后，对于存疑的文章，应该请该专业的专家进行审稿，并及时将检测结果与其沟通。在大多数的情况下，专家都能辨别出重复部分的初始来源，而有部分专家甚至能对翻译抄袭进行有效的辨认。
(五)使用word或者wps格式检测文本
针对统一文本使用不同格式检测得出不同结果的情形，建议编辑在使用SMLC系统时，使用 word格式或者wps格式进行检测。因为上述两种文本格式检测的结果更为准确。
(六)开放查重内容网上申报功能
即使SMLC系统对上述问题均做出补充完善，该系统仍可能存在对比样本的漏网之鱼。为了SMLC系统能提供更好的用户体验与提高其检测准确率，建议SMLC系统开放查重内容网上申报功能，该功能应该开放三个端口，读者端VI、作者端121 与编辑部端口。读者与作者端口应该允许读者与作者申报论文引用文献的首个来源。例如A著作中某个观点被甲某写的B论文抄袭后，被系统认定为是甲某B论文的原创，乙某写C论文列明该观点来源于A反而被SMLC检测为抄袭。这个时候就应该允许乙某对A著作的该观点进行证明，形式应该是上传A著作的全文和出版日期与B论文的全文和发表日期，而其他读者如果发现了上述的首个来源错误的情况，也应该允许其对该情况进行申报；同时，还应该允许读者和作者对未被翻译为中文的外文著作内容进行申报。编辑部端口，除了错误来源申报外，还应该允许添加编辑部个性化内容申报。由于每个编辑部对文章要求不一样，每位编辑的学术品味也不一样，可能有些编辑认为只要是法律条文重复也算抄袭，而有些编辑则认为只要是法律条文重复就不算抄袭。那么这个时候就可以在编辑部的端口允许编辑们进行个性化的设置，对于法律条文、法律法规名字、案例等进行设定，将其设定为非抄袭内容时，检测结果自动忽略该部分的重复。
三、结语
经问卷调查得知有些编辑部不录用论文查重超过 15％的稿件，一些期刊编辑看到检测系统所显示的结果中文字非引用复制率比较高，就仓促将稿件定性为存在学术不端行为，直接退稿p3；而高校对于毕业生论文查重要求普遍为不能超过20％，但是现在的SMLC系统在法律类论文检测时出现误检情况比较多，希望SMLC系统和学术科研机构能重视这种情况，让学者将精力用于真正的学术研究，而非通过修改论文描述降低查重率。

相关文章：一种用于科技项目查重的数据整合及描述模型

关于我们: CheckBao是中文学术论文相似度查重检测系统，是权威、可信赖的中文学术剽窃检查的在线网站。CheckBao论文查重检测系统专注中文学术检测抄袭，基于亿级学术期刊、学位论文和互联网数据，采用大数据中文语义识别比对技术，为学术原创保驾护航。

联系我们: 客服QQ：1436706507