论文查重 | 论文文献库 | 运用SMLC系统检测法学类论文存在误检问题及对策

自2008年12月26日中国学术期刊(光盘版) 电子杂志社开发完成《社科期刊学术不端文献检 测系统(SMLC)》(以下简称SMLC)、《科技期刊学 术不端文献检测系统(AMLC)》(以下简称AMLC) 和《学位论文学术不端行为检测系统(TMLC2)》(以下简称TMLC2),这些系统为规范我国学术不 端行为起到了重要作用。这个平台的建设对提高 我国科技发展水平、加快科技期刊强国,对全面建 设小康社会、加快推进社会主义现代化、实现中华 民族伟大复兴具有重大而深远的意义…。如今上 述系统已经整合升级为CNKI科研诚信管理系统 研究中心,检测范围也从原先的期刊论文和学位论 文,扩展到了大学生论文管理系统(本科版和高职 高专版)、大学生毕业设计(论文)管理系统、中学 生作业检测系统、全国人事职称评审论文管理系 统、科研成果检测系统、图书专著检测系统和工作 总结抄袭检测系统。近日AMLC更是开发出英文 界面的英文论文查重beta版。检测内容也从最初 的中文文本、数据和表格等扩展到中英文文本、表 格、图像图形、表述结构、实验设计等极其丰富的内 容。检索对比库收纳的数据内容更是空前庞大,数 据的更新速度亦随着网络“优先出版”技术的成熟 与规范得到极大提升。尽管随着科学技术的发展, 上述学术不端文献检测系统的功能与服务都有了 长足的进步,但是在使用SMLC检测法学类论文 时,论文查重结果的误检情况仍较多。科技为人所用应 以人为本,如果因出现误检而导致论文初审未能通 过,令编辑与好文章失之交臂,确实可惜。据此,笔 者以“误检问题”为核心,设计《学术不端系统使用 问题调查问卷》,向学术期刊编辑、高校法学学者 和法学研究生发出调查问卷200份,回收133份。 其中有效回答133份(其中学术期刊编辑33人,作 者100人)。下文笔者将结合自身的工作实践以 及问卷情况对误检情况进行论述,从合理对待误检 的角度出发提出有益建议。
一、社科期刊学术不端文献检测系统误检 情况
“误检”是文献检索的专有名词,是指用户检出的文献,有的符合需要,有的不符合需要,甚至有 些需要的文献未被检出‘21。本文所指误检,是指 论文检测者使用社科期刊学术不端文献检测系统 (SMLC)检测法律类论文时,对比结果出现以下三 种情况:第一,将合理引用的内容认定为抄袭;第 二,应该列为抄袭的内容未列出;第三,同一文本用 不同存储格式检测出不同的结果。根据调查问卷, 以下内容(表1)被认为属于误检内容:
从表1可知,51.88%的被调查人员因“专业术 语的描述”被认定为重合,46.62%的被调查人员 因“常识性描述”被认定为重合,而“地名、行政机 关名称”“案例文字性介绍”和“事实性数据”被认 定为重合的概率也都高达24.06%、29.32%和 27.07%。更有甚者,连日期、公式(法经济学里涉 及经济学的公式)、序数词、关联词、毕业论文致谢 词、古文引用部分,也都被认定为是重合。
(一)将合理引用的内容认定为抄袭
法学是以法律现象为专门研究对象的学科,它 所研究的法律现象包括法律意识、法律文化、法律 制定、法律事实、法律监督、法律行为、法律规范、法 律秩序、法律体系等,都涉及宪法与行政法、刑法、 民法、商法、经济法、合同法、刑事诉讼法、民事诉讼 法、行政诉讼法和国际法的法学分支学科的法律现 象’3 o。撰写法学论文的过程中,在论证时将不可 避免地会使用到法学专有名词、法律事实、法律法 规名称、条文和法律判例等,而这些内容的字数有 时候会很长,若将这些具有共性和普适性的内容列 为抄袭,法学论文的重复率将异常高。鉴于上述情 况,可以说,复制不能一律等同于抄袭。41。 1.法学术语。在进行法学论文的写作时,必须 使用专业法学词汇,也即法言法语,否则无法表达 出法学研究的精确与严谨。例如“民事行为能力 的划分”“完全限制民事行为能力”“法律关系的构成要素”“公民的基本权利和义务”和“中外合资经 营企业”等等,诸如此类还有许多,而这些最普通 的法学研究表达,如果再添加上关联词或者序数 词,其字数将会轻易地超过学术不端软件的最低检 测标准,这些表述也会被认定为是抄袭。
2.法律法规名称、条文和司法解释。在法学论 文写作中,为了论证某一事实是否符合法律规范, 是否侵犯了当事人的权益,不可避免地会引用到法 律法规的条文。而从规范写作的角度出发,引用法 律条文必须注明来源与内容。例如:2001年最高 人民法院《关于适用中华人民共和国婚姻法>若 干问题的解释(一)》、2003年最高人民法院《关于 适用中华人民共和国婚姻法>若干问题的解释 (二)》和2010年11月15日最高人民法院《关于 适用中华人民共和国婚姻法>若干问题的解释 (三)》(以下简称“解释(三)征求意见稿”)第六 条:“夫妻一方的个人财产在婚后产生的孳息或增 值收益,应认定为一方的个人财产;但另一方对孳 息或增值收益有贡献的,可以认定为夫妻共同财 产。”这段话即因所描述的法律法规的名称和条文 字数太多,在检测时所有法条和日期都被列为重 复,而部分法条内容更直接被认定为剽窃文字 表述。
3.指导性案例。最高人民法院每年搜集基层 法院的经典判决将其汇集,并不定期在最高人民法 院网站公布同时集结成书,法学学者对这些案例进 行研究时必然需要先对案例进行介绍,那么在介绍 案例并注明引用的时候,相同的案例就会有三个正 规来源:1)判决书;2)最高人民法院官方网站; 3)《最高人民法院指导性案例》丛书。不同的作者 从不同的来源注明同一个案例引用的时候,SMLC 就会将后续检测的文章认定为是抄袭。
4.名家的经典表达。法学名家在一些公开场 合,例如在会议、演讲、讲座和电视访谈节目中对法 学问题的经典评述,已经被学界众所周知的法学名 家观点或者名言,在SMLC检测中也极易被认定为 是抄袭。因为这类经典表述一般直接写出某某认 为、某某的观点是,而不写作某某在何时何处评论 道“……”,因此首次引用该名家观点的论文就被 默认为是出处,这是极不合适的,毕竟这并不是该 作者的观点,而是法学名家的观点。
(二)应该列为抄袭的没有列出来
1.首次引用不规范导致的误检。在SMLC系 统数据库建立初期,并不能收纳所有的法学著作, 尤其在纸质年代很难发现学术不端行为”o,而 SMLC系统数据库又是建立在日益增多的学术论 文之上,这就导致那些没有对引用内容作规范性标 注的法学论文成为某些文字的“首创”对比样本。 而此后的其他法学论文即便是正规地引用了专著 的内容,也会因为与“首创”样本重复而被认定为 是剽窃文字表述。
2.翻译抄袭。随着SMLC系统的日臻完善,现 在已经很难通过“复制粘贴”去完成一篇学术论 文,因此有些作者开始走向“翻译抄袭”之路,通过 翻译外文学术文献进行抄袭性写作,而这其中以翻 译英语文献居多。在笔者对论文进行初审时,往往 会发现有部分文字段落的论述不符合中国文字表 达习惯,句式结构往往是英语的长而复杂、多代词、 多被动和多从句的句式结构。这一类论文经过初审 的仔细识别以及送该领域的专家外审,有部分能辨 别出是翻译抄袭和抄袭了哪些著作,然而SMLC系 统暂时无法有效辨别翻译抄袭。翻译抄袭现象屡禁 不止,甚至在某些领域出现了变本加厉的苗头¨1。 (三)同一文本用不同存储格式检测得出不同结果 《暨南学报》编辑部采用网络投稿系统,该系 统要求作者在投稿时上传电子版稿件,稿件格式可 以为doe、docx、wps和pdf。笔者发现在使用SMLC 系统对文章进行初审时,同一稿件若使用不同储存 格式进行查重,将得到不同的结果。以《暨南学 报>>2016年第6期刊发的一篇文章为例,该文如果 使用doe和wps格式进行检测,得出总文字复制比 均为14.6%,去除引用文献复制比均为12.5%,单 篇最大文字复制比均为4.8%。若使用pdf格式进 行检测,得出结果则总文字复制比减少为13%,去 除引用文献复制比减少为11.1%,单篇最大文字 复制比减少为3.1%。对比两份文本复制检测报 告单(全文标明引文)可知,SMLC系统在识别doe 格式文本时总字数识别为10319,而识别pdf格式 文本时总字数识别为8459。对于该文本而言就是 少检测了18.6%的字数,这足以影响一篇文章的 检测结果。
二、解决学术不端文献检测系统误检的对策 与建议
(一)建立查重白名单
建议SMLC系统从后台监控高重复率数据,每 隔一段时间就对重复率极高的内容进行归纳总结, 建立查重白名单。将法律专业术语、法律事实、法 律法规名称、法律条文、司法解释、指导性案例(判 决书)和法学名家经典表达列入其中,将白名单内 的内容从抄袭与重复中剔除。否则文章作者为了 降低重复率而花费大量时间改写法律专业术语、法 律条文的内容或者指导性案例的真实案情,将扭曲 创立SMLC系统的目的与其学术监督意义。
(二)及时更新数据库内容
随着我国法治建设的逐步进行,每年都有大批 的法律被颁布、修改和实施。最高人民法院每年都 会公布一批指导性案例,每天都会产生新的判决并 被公布在其官方网站上。笔者建议SMLC系统及 时更新这些数据,并将其列入查重白名单。另外, 学术性博客的文章也应当被列入查重资料的来源 中来。
(三)补充旧的数据
针对上文谈及因前人首次引用不规范或者没 有引用,而导致后人即使规范引用也会被视为抄袭 的情况,建议SMLC系统能补充录入我国现存的所 有文献,尤其是一些旧版的法学著作与一些在该系 统创建之前出版但是在该系统建立之后绝版的法 学著作,并纠正系统对这些法学著作内容的认定。
(四)区别对待法学稿件
在实际工作中,应将技术与人工手段有机结合 起来¨-,发挥编辑与审稿专家的作用。
1.发挥编辑的作用。编辑部是论文的第一道防 线¨-,编辑对于查重率高的法学稿件应该区别对待, 如果是纯法学理论研究的文章,编辑应该仔细辨别 重复部分是否为法律法条和法律专有术语,如果是 实践性强的法学问题研究文章,则要仔细辨明重复 部分是否为法律条文、案例或者司法解释等,如果是 这些内容重复,则不应该将其定性为抄袭。
2.发挥审稿专家的作用。在对文章进行SMLC 检测后,对于存疑的文章,应该请该专业的专家进行 审稿,并及时将检测结果与其沟通。在大多数的情 况下,专家都能辨别出重复部分的初始来源,而有部 分专家甚至能对翻译抄袭进行有效的辨认。
(五)使用word或者wps格式检测文本
针对统一文本使用不同格式检测得出不同结 果的情形,建议编辑在使用SMLC系统时,使用 word格式或者wps格式进行检测。因为上述两种 文本格式检测的结果更为准确。
(六)开放查重内容网上申报功能
即使SMLC系统对上述问题均做出补充完善, 该系统仍可能存在对比样本的漏网之鱼。为了SMLC系统能提供更好的用户体验与提高其检测 准确率,建议SMLC系统开放查重内容网上申报功 能,该功能应该开放三个端口,读者端VI、作者端121 与编辑部端口。读者与作者端口应该允许读者与 作者申报论文引用文献的首个来源。例如A著作 中某个观点被甲某写的B论文抄袭后,被系统认 定为是甲某B论文的原创,乙某写C论文列明该 观点来源于A反而被SMLC检测为抄袭。这个时 候就应该允许乙某对A著作的该观点进行证明, 形式应该是上传A著作的全文和出版日期与B论 文的全文和发表日期,而其他读者如果发现了上述 的首个来源错误的情况,也应该允许其对该情况进 行申报;同时,还应该允许读者和作者对未被翻译 为中文的外文著作内容进行申报。编辑部端口,除 了错误来源申报外,还应该允许添加编辑部个性化 内容申报。由于每个编辑部对文章要求不一样,每 位编辑的学术品味也不一样,可能有些编辑认为只 要是法律条文重复也算抄袭,而有些编辑则认为只 要是法律条文重复就不算抄袭。那么这个时候就 可以在编辑部的端口允许编辑们进行个性化的设 置,对于法律条文、法律法规名字、案例等进行设 定,将其设定为非抄袭内容时,检测结果自动忽略 该部分的重复。
三、结语
经问卷调查得知有些编辑部不录用论文查重超过 15%的稿件,一些期刊编辑看到检测系统所显示的 结果中文字非引用复制率比较高,就仓促将稿件定 性为存在学术不端行为,直接退稿p3;而高校对于 毕业生论文查重要求普遍为不能超过20%,但是 现在的SMLC系统在法律类论文检测时出现误检 情况比较多,希望SMLC系统和学术科研机构能重 视这种情况,让学者将精力用于真正的学术研究, 而非通过修改论文描述降低查重率。

相关文章:一种用于科技项目查重的数据整合及描述模型