论文查重  | 论文文献库  | 文本相似度指标分析及文本相似性分析方法研究

文本相似度指标分析及文本相似性分析方法研究

来源：论文查重时间：2019-08-02 10:51:55

摘要：近些年来国家为了能够有效地提高企业的科研能力，对企业所申报的科技项目都会给予一定程度上的拨款支持。为此避免将科研经费浪费在重复申报的低质量企业科技项目上，企业的领导往往需要对所申报的科技项目进行文本相似性论文查重分析。基于上述背景，论文将对文本相似度指标分析及文本相似性分析方法进行深入研究，以期望能够有效地提高对企业对相似科技项目的甄别率。
一、前言
近些年来国家为了能够有效地提高企业的科研能力，对企业所申报的科技项目都会给予一定程度上的拨款支持m。为了确保国家的拨款能够物尽其用，企业本身往往会利用一些相似性检测系统对企业员工所申报的科技项目进行相似I生检测，以筛选出优质企业科技项目给予扶持嘲。然而目前大多是相似l生检测系统只能对文本的内容进行浅层次的检测，这也让一些心怀不轨的企业员工钻了漏洞，将一些已发表的优质科技项目进行洗稿操作之后伪装成—个新的企业科技项目进行申报，以骗取国家拨款给企业的科研资金。结果不仅浪费了国家的财政拨款资金，同时也挫伤了企业其他员工的科研热睛。基于上述原因，本文将对文本相似度指标分析及文本相似性分析方法进行深入研究，以期望能够有效地提高对企业对相似科技项目的甄别率，筛选出优质的科研项目进行申报扶持，进而提高企业科研能力以及市场竞争力。
二、文本相似度论文查重指标制定
本文将以电力企业的科研项目申报作为研究对象，通过以下几种技术完成对于电力企业的科研项目申报查询文本以及目标文本之间关系的研究：
(一)基于数字指纹方法构建电力行业的数字指纹。通过数字指纹技术，建立文本特征库，对文档生成数字指纹，通过指纹对比，来完成文献相似陛检测。
(二)基于电力行业的向量空间模型的技术。利用向量空间模型WeN对两个词向量进行计算作为语义相关眭的度量。每个词表示为—个浮点向量，可以表示为高维空间中的—个向量，利用两个向量之间的夹角计算两个向量的距离并表示f蛳1的相似程度。通过对所有两两词之间进行距离计算，进而构造m整个关键词语义网络，该网络可用如下矩阵表示：(sii)n木n，即：
本项目对所有电力领域期刊科技文献摘要数据，所有项目申请的专利数据以及项目库、成果登记库中的项目数据，训练出关键词语义网络，并只保留相关眭值大于05以上的关键词。 (三)基于电力行业的字符串比较与压缩的方法。通过重复字符串的多少和长度用来判断文档复制的程度。该方法不用考虑文档特征提取和数字指纹长度等问题．具备陕速便捷等特点。
三、文本相似性论文查重检测技术
采用CNKI自适应多阶指纹分析技术和NLPE中文自然语言处理技术，两大文本处理技术。
CNKI自适应多阶指纹分析技术：采用C卜阍自主研发的白适应多阶指纹特征检测技术，具有检测速度快，准确率，召回率较高，抗干扰陛强等特征。
与其他文档指纹技术相比，具有更好的容错性、更丰富的指纹粒度，适宜陕速处理学术文献多种不端行为类型。该技术不同于传统的全文索引，它实现了一种高效、紧凑的索引结构，将特征指纹做为索引关键词，采用一定的压缩策略，利用尽可能少的磁盘空间存储尽可能多的特征指纹。
针对同一份数据，可提供多个级别的索引，每个级别的索引采用不同的指纹特征提取粒度。处理用户检索请求时，选择最适合的索引检索，以最少的代价执行检索，保证了实时的响应速度。采用N12E中文自然语言处理技术拥有以下特性：海量概念关系词典应用、有效解决了歧义切分和未登录词辨识问题、浅层句法和语法分析、英文短语识别／中英文互译、最大匹配5MB／,s，全切分IMB／s、一般学术研究的切词速度为30-．"=；(OOKB／s、全切分的准确率大约9r73％。
四、电力领域的文本相似陛检测技术
—般而言，电力领域的科技项目都会存在着许多专业名词。这些专业名称：表达方式固定且特定明显。因此可以先对文本进行分词处理之后，利用词向量的特征识别进行文本的语义相似性佥测。
五、结语
为了有效地提高企业科技项目的申报质量，本文对文本相似度指标分析及文本相似性分析方法进行深入研究，提出了电力领域的文本相似性检测技术并将该技术应用于实践之中。根据实施该应用的企业反馈，该系统有效地提高所申报企业科技项目的整体质量，有效地促进企业人才培养，提高企业的科研能力．进而提高企业的市场竞争力。

相关文章：基于上下文相似度矩阵的Single-Pass短文本聚类

关于我们: CheckBao是中文学术论文相似度查重检测系统，是权威、可信赖的中文学术剽窃检查的在线网站。CheckBao论文查重检测系统专注中文学术检测抄袭，基于亿级学术期刊、学位论文和互联网数据，采用大数据中文语义识别比对技术，为学术原创保驾护航。

联系我们: 客服QQ：1436706507