论文查重 | 论文文献库 | 基于文本相似性检索技术解决命题中重题检测问题的实践

1 问题提出
如何控制复本试卷间试题的重复率是专业考 试机构的一个难题。以单个试题为基础的题卡库, 重复的试题不仅造成资源浪费和额外的开销,还会 严重地影响组卷的质量。以试卷为基础的卷库,试 卷重复率超标①,不仅影响考试的公平、公正与测验 的效度,还会让社会对考试机构的专业性产生质 疑。传统的人工检测既费时,又费力。举例来说, 假设题库中已有1 000道试题,需要新添加10道试 题,则需要进行 10 000 次检测,才能完成人工核查 试题重复率(以下简称“查重”)。如果要查重新命 制试题与全部已考试题,人力根本无法胜任。从多 年实际工作的效果来看,通过查重方式不仅效率低 下,而且无法全面、准确地统计试题重复率,查重存 在很大的风险。鉴于此,我们应用计算机文本相似 性检索系统,结合已有的自学考试命题信息管理系 统,设计了自学考试试题查重系统。
1.1 文本相似性检索
文本相似性技术是数据挖掘、信息分类、信息 检索等电子信息处理研究领域的基础,根据文本的 内容属性来度量两个电子文档的相似程度,在论文 剽窃检索、稿件查重、版权保护等方面有着广泛的 应用。相似试题检测是指把试题库中相似度很高 的试题抽取出来,由学科专家来判定它们是否有同 时存在的必要性,或由计算机自动筛掉相似度很高 的试题[1]。本文提出的试题查重系统是在拓尔思 (Text Retrieval System,TRS)相似文本检索软件的基 础上,结合自学考试的命题特点二次开发的计算机 软件。系统首先对文本进行分词和词性标注,然 后使用特征提取技术抽取有用的文本特征,将提 取的文本特征表示成文本“指纹”,最后到文档“指 纹”库中检索与当前文档相似的文档,并给出文档 的相似度量。
1.2 重题与相似试题的界定
在计算试题相似度之前,我们首先要定义重题 和相似试题。重题,顾名思义就是完全或者几乎完 全雷同的试题。而相似试题是指两道题在形式和 内容上有很大的相似之处,但又不完全相同,所产 生的效果也是不相同的。例如两道题,“在我国国 家秘密的 3个等级中,其密级应由县以上单位颁布 的是”和“在我国国家秘密的 3个等级中,其密级应 由市以上单位颁布的是”,题干文字内容非常相 近,但一个关键字的区别使两道试题考查了同一个 知识点的不同内容,答案也完全不同。
重题不但会造成资源的浪费,还会产生试卷质 量的隐患。重题不应该出现在题库中。在卷库的 使用中也有严格的限制,需要计算一张试卷中重题 的分值是否超标。而相似试题在很多时候对于命 题尤其是自学考试命题是有意义的。一本教材的 知识点是有限的,题库中不可能完全回避相同知识 点的试题。从课程的学习和考试的规律上看,课程 的重点内容和重要知识点不仅不能回避,还应该反 复考核。一方面,只有考查课程的重点知识才能准 确地测量被试的能力;另一方面,如果限制命题教 师命制相似试题,则会产生大量的偏题、怪题,从而 降低试卷的信度和效度;同时,由于相似试题的考 点和试题形式相近,使用相似试题还有助于提高试 卷之间的平行性。然而,在实际命题工作中,相似 试题的使用也有相应的要求。首先,相似试题不能 出现在同一张试卷里,这有可能会造成考核点重复 或者试题相互提示的问题;其次,对于相近期次的 考试,相似试题的分值也要严格控制,以免考生抓 住规律,投机取巧。
1.3 文本检索工具
如何选择文本检索工具是设计试题查重系统 时遇到的一个核心问题。经过研究讨论,有以下几 种方案可供选择:1)利用数据库产品的全文检索功 能。此方案的优点是几乎没有额外研发和采购的 成本,但是,查重的指标不清晰,检索的体系封闭, 很难做进一步的优化。2)基于文本分词进行比对, 可以利用开源社区如 Apache的 Lucence项目成果。 此方案优点是整体技术可控,但未考虑忽略词、同 义词的干扰因素,效果不好。3)利用现有文本特征 提取和相似度计算的研究成果,选择合适的算法并 将算法程序化。此方案的优点是采用的理论可以 得到比较权威的证实,但对实验室产品的实际效果 缺乏案例支持,而且参数调校耗费大量精力。4)在 商业化的文本检索和语义理解产品基础上开发查 重系统。此方案的优点是具有类似成功案例的支 持,如网页去重、专利查新、论文剽窃检测等领域的 应用,并可以开放接口以便于二次开发;此方案的 缺点是将付出较为昂贵的成本代价。在考虑自主 开发程序的难度以及使用效果后,我们认为,第 4种 方案更适合本系统的开发,最终选用了业内比较成 熟的文本相似性检索软件——拓尔思作为系统的 文本检索工具。
2 系统的设计和实现
2.1 试题录入模板
试题电子化是试题查重的基础。因此,试题数 据来源的规范以及信息读取的完整与准确是查重 系统的先决条件。试题录入模板为命题教师提供 了一个方便录入试题和参数的载体,系统通过读取 模板文件可以将试题拆分成题干、选项、答案和参 数等信息,并批量入库。除上述信息外,试题模板 还提供了课程代码、试卷编号、每道试题的题号以 及所属题型等内容。试题录入模板采用 word 文件 作为载体,word的录入方式比软件填写方式更容易 被命题教师所接受。试题录入模板在 word的基础 上加入保护区和书签定位,命题教师只允许在保护 区内填写内容,保证了命题教师无法随意改动模板 的结构。同时,系统通过书签可以精准定位试题或 参数的起始位置,并把相关内容抽取出来[2]。
2.2 阈值的设定
本文的阈值是指两道试题的匹配符合程度,数 值为 0~1之间的实数,共 100个等级,数值越大,表 明 2 道试题相似度越高。当取值为 1 时,表明两道 试题完全相同,即重复试题;数值越小,则表明两道 试题相似度越低,当取值为 0时,表明两道试题完全 不同[3]。试题查重系统需要使用者预先设定阈值, 系统在查重后会返回大于阈值的试题列表。我们 根据自学考试的实际情况,设置不同阈值反复测 试,最终将阈值的默认值设置为 0.80。根据此阈值 检测出的试题,基本覆盖所有相似试题和重题,并 把需要人工复核的试题数量控制在一个合理的范 围,保证了实际使用的工作效率。另外,针对不同 课程的具体情况,使用者也可以手动调整阈值,以 达到最佳的查重效果。
2.3 查重系统工作流程
从命题工作程序来看,自学考试命题工作分为 分散命题、试题接收、试题入库、试卷生成、试卷校 对、试卷验收等环节。目前采用的人工试题查重设 置在试卷验收环节,这种工作模式的弊端在于:查 重范围有限;需要人工计算试卷重复试题的分数以 及与某套试卷中重复试题的分数之和;若发现重复 率超标的情况,就要由命题教师补救,工作比较被 动。启用试题查重系统后,可以在试题接收环节, 即试题入库前进行试题查重,将查重结果立即反馈 给学科秘书和命题教师,学科秘书或命题教师可以 在第一时间对疑似重复试题进行处理。如果使用 者不希望人工干预,只需要把默认阈值设置的高一 些,系统也可以完成自动相似试题检测,但自动相 似试题检测的缺陷是可能产生误判的现象[1]。 试题查重系统工作流程如图 1所示。具体工作 流程如下:
1)命题教师将填好的试题模板交给工作人员, 通过命题管理信息系统对试题模板进行加载、拆 分,生成试卷包导入系统。
2)工作人员对查重参数进行设置,包括阈值和 是否同题型查重(一般为默认)。查重系统对导入 的试题文本进行分析,内容包括题干、选项和答案, 提取文本特征并与题库中同科目的试题进行对比。
3)系统列出查重结果,包括所有超过阈值的试 题、系统对应的已存在题库中的试题题号、试题内 容、试题所属试卷的试卷编号等。除此之外,系统 还将计算出本次导入试题中超过阈值的试题的分 数之和、与某套试卷中疑似重复试题的分数之和, 并提供打印查重结果供学科秘书参考。
4)学科秘书对系统给出的查重结果进行人工 审核,若确认本套试卷重复试题分数超过命题要求 的标准,则反馈给命题教师进行修改。
5)命题教师对重复试题进行修改,将重新编 辑后的试题模板导入系统,再次查重后如果确认 合格,试题入库。
3 实验结果和讨论
为了测试实际使用效果,我们利用自学考试题 库的数据对系统进行测试。选取 5门自学考试课程 作为测试对象,并对题库中的部分试题进行改造, 使其成为相似题和重题,以满足测试的需要。
3.1 准确率和查全率
本文引入衡量信息检索系统性能最重要的 2个 参数——准确率和查全率。准确率和查全率是广 泛用于信息检索和统计学分类领域的 2个度量值, 用来评价结果的质量。其中,准确率是检索出相关 文档数与文档总数的比率,查全率是指检索出的相 关文档数和文档库中所有的相关文档数的比率。 两者取值在 0~1,数值越接近 1,准确率或查全率就 越高。准确率和查全率的数学公式为:准确率=提 取出的正确文本数/提取出的文本数×100%,查全 率=提取出的正确文本数/样本中的文本数×100%[4]。
3.2 实验结果
5门课程在题库中共有 1 858道试题,我们准备 了 150道相似试题,50道重题。测试试题分布情况 如表1所示。
本次测试统一采用 0.80 作为查重阈值。首先 对查重结果进行逐题分析,判断检索出的试题是 否与原题相关,是否属于相似试题或重题。经过 对查重结果进行人工统计后,得出测试结果如表 2 所示。
通过测试结果可以看出,相似题和重题的准确 率和查全率令人满意。在阈值设置为 0.80 的情况 下,相似题的查全率也可以达到 100%。通过综合 分析,我们可以归纳出影响查重检测结果的因素主 要有:1)题库中试题的总量。目前测试的课程在题 库中大约有 8~10 套的存量题,如果对容量更大的 题库进行测试,预计准确率将有所降低。但自学 考试题库受自学考试特点所限,实际题库容量不会 太大,因此,系统能够满足自学考试题库的需求。 2)阈值的大小。阈值的大小直接决定检测出试题 的数量和人工处理的工作量。在阈值设置为 0.80 的情况下,查全率可以达到 100%,准确率也达到比 较高的标准,人工复核的压力较小。因此,0.80 作 为默认查重阈值是合理的。3)样本的内容。本次 测试的样本是对题库中现有试题进行改造后形成 的,对原题内容改动的多少直接影响检测结果。 4)人工判断。检索出的试题是否与样本相关,即是 否认定为相似题或重题,取决于工作人员的人工判 断。本次测试过程的人工判断是由具有丰富命题 管理经验的学科秘书负责实施,认定的结果可以被 认为是准确的。
4 结语
试题查重系统成功地将文本相似性检索引入 到试题查重检测,并很好地融入了现有的命题流 程,实现了半自动化的试题查重检索。对 5门自学 考试课程进行实验测试表明,试题查重的准确率和 查全率均达到较高的水平。该系统的应用使控制 自学考试试题重复率成为可能,解决了命题管理中 复本试卷间重复率超标的难题,节省了人力资源, 提高了工作效率和命题质量。该试题查重系统虽 是以自学考试题库作为模型设计开发的,但通用性 较强,未来可以推广到其他的考试项目。

相关文章:基于新时期出版业的繁荣发展推进图书采购市场化进程探析