论文查重  | 论文文献库  | 基于语义的毕业论文题目相似性分析

基于语义的毕业论文题目相似性分析

来源：论文查重时间：2019-08-11 15:13:09

摘要：在统计计算机学科专业7年毕业论文题目的基础上，从语义的角度对毕业论文题目的相似性进行了分析，为论文题目的论文查重及归类提供依据．首先，对毕业论文题目进行分词以得到特征词汇，进而计算特征词的权重构成论文题目的向量表示；其次，使用PI．SA方法对得到的题目向量进行语义提取；最后，对语义向量进行相似度比较得出论文题目的相似性．实验结果表明，与传统的VSM方法相比，从语义角度对论文题目进行相似性比较更加合理、有效．
毕业论文是考察学生综合运用所学专业基础知识、独立分析、解决实际问题的一个重要手段，论文题目是学生在大学期间知识与能力的综合体现，因此论文题目的设定十分重要．对毕业论文题目的相似性进行检测，一方面有助于属于同一研究领域的学生相互合作，另一方面对题目的重复率检测具有提示作用，为题目审核专家提供判别依据．
对论文题目的分析属于文本处理的范畴，传统的处理方法是以字或词为单位构建特征向量来表示文本，通过对特征向量的运算实现文本信息的分类、聚类或者搜索．一般来说，文本包含的字或者词相对较多，能够使用统计词频、TF—IDF等经典方法来衡量每一个特征的权重，进而构成文本的特征向量．近年来，短文本(短消息、微博、 BBS话题等)成为文本处理的研究热点之一，如文献[1]针对Twitter等信息提出了短文本的不完全聚类思想用于提高短文本信息的聚类性能；文献[2]对微博短文本进行了研究，提出了检测新闻话题的方法；文献[3—4]分别对短文本的分类问题进行了研究．从方法角度上，短文本的研究大致可以分为两类：一类是基于规则的方法，如采用正则表达式作为生成规则的依据对短文本进行处理[5]，利用关联规则对概念短语进行特征扩充[6 3 等；另一类是基于语义的方法，如借助文本语义特征图进行文本分类_j，基于领域知识本体的研究方法‘83等．
毕业论文题目与其他类型的短文本相比，题目中包含的短语非常有限，一个论文题目中往往只有几个不重复的词组成，并且同一个词在不同文本中出现的次数远远小于长文本文件，这就使得使用传统方法在构造论文题目的特征向量时得到的数据具有非常大的稀疏性，导致论文题目之间的相似性难以准确判断．解决这种数据的稀疏性问题，一种方法是利用搜索引擎来扩充短文本的上下文以填充数据凹]，另一种方法是通过模型给短文本建模，充分利用短文本集合中文本的内在联系来建立文本表示[1…．同时，由于不同词对题目的意义有差异，因此，在构成论文题目的文本表示时需要考虑这种差异性，尽可能平衡每个词的重要性权重．
在自然语言处理领域，文档由不同的词构成，词与词之间往往存在着某种联系，不同词的组合能够表达特定的主题意义，因此可以将一篇文档看作多个主题的某种组合．从这个角度上，把文档的构成形式描述为先确定主题含义，然后在特定主题下选择合适的词，文档的各个主题即为语义．从语义出发，可以一定程度上将同义词归为同一语义表示，多义词在语义上区分．潜在语义分析 (1atent semantic analysis，LSA)是经典的语义提取方法¨1I，它利用奇异值分解技术将高维的向量空间模型(VSM)表示中的文档映射到低维的潜在语义空间中，使表面上不相关的词在语义空间中显示出深层关系．潜在概率语义分析(probabi— listic latent semantic analysis，PLSA)从概率的角度解释文档的构成，与LSA相比能够为信息的提取提供更好的语义表示Ll…．
由于似然函数L的表达式中存在对数内部的加法运算，所以L没有封闭解，但可以通过期望最大化(EM)算法得到其似然解．期望最大化算法可经过两个步骤交替进行计算：第一步是计算期望(E—Step)，利用对隐含变量的现有估计值，计算其后验概率；第二步是最大化期望(M—Step)，即通过最大化第一步中求得的后验概率来计算参数．
论文题目只有在提取出词之后才能使用PL— SA进行语义计算，因此需要将论文题目进行分词，得到其由词构成的向量．分词的结果对于最后的语义表示有至关重要的影响，因此，本文选用中国科学院计算技术研究所研发的ICTCLAS系统作为分词工具．但由于论文题目中的部分用词具有领域专业性，所以使用分词工具之后需要对得到的结果进一步调整，去掉对题目含义无意义的虚词，规整部分专业术语，然后将得到的词添加到词汇集中，最终得到论文题目的向量表示．
本文实验数据来自毕业论文题目，共计540 个，研究领域包括软件设计、网页制作、动画视频、智能算法、网络安全、嵌入式系统、手机开发等．由于涉及专业知识，题目中相同的用词相对较多，本文提取特征词共计794个．将整个数据分为两部分，随机选择90％的题目用于训练PI。SA模型参数，剩余的10％用于测试语义相似度．为了衡量本文语义相似性的性能，采用文本处理中常用的查全率、查准率及F1值作为度量标准．
对属于同一研究领域的论文题目分别提取语义，计算查全率、查准率及F1值，取其平均值作为这一类题目的性能指标．由于每一个毕业论文题目在严格意义上不会完全相同，因此，将判定标准定义为检索出同一研究领域的题目．将本文方法与经典的文本相似度比较方法——VSM模型相比较来验证本文方法的性能，实验结果如表1 所示．
从表中数据可以看出。无论是查全率还是查准率，本文的语义相似性度量方法在总体上效果与VSM模型相比有所提高，但在个别数据上(如 Web开发类)低于VSM模型．分析这一类的数据构成，发现造成这一结果的原因是训练集中关于 Web开发的论文题目数量相对较少，且主要的特征词重复性高，导致语义的表示不完整，而VSM 方法主要使用词匹配的策略，因此有相对较好的效果.
表1中的结果是在不同的相似度阈值的情况下获得的，计算的标准是两种方法获得的检索数相近，这是一种广义上的检索率比较．从具体的相似度值来看，从语义的角度比较相似性更能体现出题目的相似性．图3为某一论文题目在检索过程中两种方法的相似度值变化曲线．
从图中可以直观地看到，如果对两种方法设定相同的阈值，本文的语义相似度方法在检索数目上具有明显的优势．同VSM方法一样，本文方法在阈值很小时得到的检索结果中有很多与测试题目不相关，但随着阈值的增大，结果的相似性明显提高．在部分测试题目中，两个同一类很相似的题目即使只有一两个词相同，也能得到很高的相似度，而VSM方法无法实现这一点．
本文基于PLSA模型对毕业论文题目进行了语义相似性比较，与传统的基于相同词的比较方法相比，从语义角度的相似性度量具有更好的性能和更高的相似度值．同时，语义的提取使得原本相似但使用不同词的题目具有更高的相似性，这不仅对于毕业论文题目的分析与分类有重要的作用，而且对其他类似的短文本处理也具有很好的借鉴意义．然而，语义的提取需要数据的支持，而且数据之间的联系也是语义的一个重要因素，对于数量相对较少且特征词重复性高的毕业论文题目，难以提取出合适的语义信息．解决这一问题，一种方法是准备足够多且分布合理的训练数据，使数据具有统计意义；另一种方法是先通过大量数据建立语义数据库，在进行毕业论文题目的语义提取时，从训练数据和语义数据库两方面来构建题目的语义．

相关文章：避免科技论文重复发表和一稿多投的机制与实践

关于我们: CheckBao是中文学术论文相似度查重检测系统，是权威、可信赖的中文学术剽窃检查的在线网站。CheckBao论文查重检测系统专注中文学术检测抄袭，基于亿级学术期刊、学位论文和互联网数据，采用大数据中文语义识别比对技术，为学术原创保驾护航。

联系我们: 客服QQ：1436706507