论文查重 | 论文文献库 | 文本相似度指标分析及文本相似性分析方法研究

文本相似度指标分析及文本相似性分析方法研究

来源:论文查重 时间:2019-08-02 10:51:55

摘要:近些年来国家为了能够有效地提高企业的科研能力,对企业所申报的科技项目都会给予一定程 度上的拨款支持。为此避免将科研经费浪费在重复申报的低质量企业科技项目上,企业的领导往往需要对 所申报的科技项目进行文本相似性论文查重分析。基于上述背景,论文将对文本相似度指标分析及文本相似性分析 方法进行深入研究,以期望能够有效地提高对企业对相似科技项目的甄别率。
一、前言
近些年来国家为了能够有效地提高企业的科研能力,对企业 所申报的科技项目都会给予一定程度上的拨款支持m。为了确保 国家的拨款能够物尽其用,企业本身往往会利用一些相似性检测 系统对企业员工所申报的科技项目进行相似I生检测,以筛选出优 质企业科技项目给予扶持嘲。然而目前大多是相似l生检测系统只 能对文本的内容进行浅层次的检测,这也让一些心怀不轨的企业 员工钻了漏洞,将一些已发表的优质科技项目进行洗稿操作之后 伪装成—个新的企业科技项目进行申报,以骗取国家拨款给企业 的科研资金。结果不仅浪费了国家的财政拨款资金,同时也挫伤 了企业其他员工的科研热睛。基于上述原因,本文将对文本相似 度指标分析及文本相似性分析方法进行深入研究,以期望能够有 效地提高对企业对相似科技项目的甄别率,筛选出优质的科研项 目进行申报扶持,进而提高企业科研能力以及市场竞争力。
二、文本相似度论文查重指标制定
本文将以电力企业的科研项目申报作为研究对象,通过以下 几种技术完成对于电力企业的科研项目申报查询文本以及目标文 本之间关系的研究:
(一)基于数字指纹方法构建电力行业的数字指纹。通过数 字指纹技术,建立文本特征库,对文档生成数字指纹,通过指纹 对比,来完成文献相似陛检测。
(二)基于电力行业的向量空间模型的技术。利用向量空间模 型WeN对两个词向量进行计算作为语义相关眭的度量。每个词表 示为—个浮点向量,可以表示为高维空间中的—个向量,利用两个 向量之间的夹角计算两个向量的距离并表示f蛳1的相似程度。 通过对所有两两词之间进行距离计算,进而构造m整个关键 词语义网络,该网络可用如下矩阵表示:(sii)n木n,即:
本项目对所有电力领域期刊科技文献摘要数据,所有项目申 请的专利数据以及项目库、成果登记库中的项目数据,训练出关 键词语义网络,并只保留相关眭值大于05以上的关键词。 (三)基于电力行业的字符串比较与压缩的方法。通过重复 字符串的多少和长度用来判断文档复制的程度。该方法不用考虑 文档特征提取和数字指纹长度等问题.具备陕速便捷等特点。
三、文本相似性论文查重检测技术
采用CNKI自适应多阶指纹分析技术和NLPE中文自然语言处 理技术,两大文本处理技术。
CNKI自适应多阶指纹分析技术:采用C卜阍自主研发的白适 应多阶指纹特征检测技术,具有检测速度快,准确率,召回率较高, 抗干扰陛强等特征。
与其他文档指纹技术相比,具有更好的容错性、更丰富的指 纹粒度,适宜陕速处理学术文献多种不端行为类型。该技术不同 于传统的全文索引,它实现了一种高效、紧凑的索引结构,将特 征指纹做为索引关键词,采用一定的压缩策略,利用尽可能少的 磁盘空间存储尽可能多的特征指纹。
针对同一份数据,可提供多个级别的索引,每个级别的索引 采用不同的指纹特征提取粒度。处理用户检索请求时,选择最适 合的索引检索,以最少的代价执行检索,保证了实时的响应速度。 采用N12E中文自然语言处理技术拥有以下特性:海量概念 关系词典应用、有效解决了歧义切分和未登录词辨识问题、浅层 句法和语法分析、英文短语识别/中英文互译、最大匹配5MB/,s, 全切分IMB/s、一般学术研究的切词速度为30-."=;(OOKB/s、全切分的 准确率大约9r73%。
四、电力领域的文本相似陛检测技术
—般而言,电力领域的科技项目都会存在着许多专业名词。这 些专业名称:表达方式固定且特定明显。因此可以先对文本进行分词 处理之后,利用词向量的特征识别进行文本的语义相似性佥测。
五、结语
为了有效地提高企业科技项目的申报质量,本文对文本相似 度指标分析及文本相似性分析方法进行深入研究,提出了电力领 域的文本相似性检测技术并将该技术应用于实践之中。根据实施 该应用的企业反馈,该系统有效地提高所申报企业科技项目的整 体质量,有效地促进企业人才培养,提高企业的科研能力.进而 提高企业的市场竞争力。

相关文章:基于上下文相似度矩阵的Single-Pass短文本聚类