论文查重 | 论文文献库 | 一种用于科技项目查重的数据整合及描述模型

项目多头申报、重复立项是我国科研项目 管理领域的突出问题之一。该问题不仅会造成 国家科技资源的浪费和损失,也会导致恶性的 科研竞争环境,损害鼓励创新的科研精神,对 科技创新发展的危害极大。国务院 2014 年连续 发布的公文《国务院关于改进加强中央财政科 研项目和资金管理的若干意见》[1] 和《关于深 化中央财政科技计划(专项、基金等)管理改 革的方案》[2] 均强调了项目查重的重要性,并 提出了建立公开、统一的国家科技管理平台的 构想。
通过文献调研发现,国外的项目评审大多 以同行评议的方式完成,未发现论文查重的提 法。但国外在关键词抽取 [3]、自动摘要 [4]、文 档检索 [5] 等方面的研究起步较早,进行了大量 的研究和探索 , 积累了丰富的经验和成熟的技 术。国内在方法研究方面起步较晚,但有针对 性的开展了文本挖掘方法在科技项目管理中的 应用研究 [6-13]。姜韶华 [6] 在对项目申报书进行 分词的基础上提取层次特征项,并用向量空间 模型对项目申报书进行建模。左川 [7] 提出了一 种基于非分词技术解决科技项目查重问题的方 法,通过 CHARM 算法挖掘得到的频繁闭项集 作为特征向量,利用向量空间模型对项目申报 书进行建模。方延风 [8] 利用向量空间模型描述 项目申报书,引入特征词的位置和长度两种因 素对 TF-IDF 方法进行改进。吴燕 [9] 通过对项 目申报书加工处理,抽取关键词特征向量构建 了项目本体,并建立了已有项目本体的层次聚 类树以提升项目查重的效率。林明才等人 [10] 采 用向量空间模型对项目申报书进行建模,提出 了一种改进的模糊聚类算法 RM-FCM 对待判定 项目集和已有项目集进行聚类分析,进而判断 项目间的相似性。罗灏 [11] 利用分词技术和语义 相似度网络从项目申报书中抽取关键词,结合 向量空间模型和物元知识表示模型描述科技项 目知识。林建海 [12] 对向量空间模型进行扩展, 提出了一种基于内容项的项目知识表示模型, 通过加权策略融合了语义相似度和字符串匹配 相似度两种计算方法。赵士杰 [13] 通过一种基于 语义理解的向量空间模型计算项目研究内容的 相似度,利用编辑距离计算项目标题的相似度, 并融合两种结果来计算项目之间的相似度。这 些研究工作基本都是从项目申报书入手,对其 进行降维处理,提取特征向量建立向量空间模 型来表示项目申报书的内容,并利用特征向量的相似度来度量项目申报书的相似度。这些方 法存在两方面的局限性:1)项目申报书一般不 对外公开,获取难度很大。因此该方法适应于 单个计划内部进行项目查重,很难进行跨计划 的项目查重。2)从申报书到特征向量的降维处 理意味着信息的丢失,会对项目查重的准确性 产生一定程度的影响。文献 [14] 总结了项目查 重难以解决的三个方面的原因:1)科技项目数 量迅速增长;2)项目信息公开、共享和整合程 度较低;3)项目相似性判别方法单一。
针对上述问题,通过整合与项目密切相关 的公开信息,建立基于大数据挖掘的查重模型, 以计算机辅助的形式解决项目查重将会成为未 来的趋势。随着云计算和大数据挖掘技术的不 断发展和推广,尤其是国家科技报告服务系统[15] 和国家科技成果转化项目库 [16] 等平台相继对公 众提供信息服务,使得通过整合科技项目各环 节的相关信息,利用大数据挖掘技术解决项目 查重问题成为可能。本文将重点介绍一种以大 数据挖掘为潜在应用场景,以描述科技项目的 研究内容为目标,能有效整合多来源相关信息 的数据模型,为解决项目查重问题奠定数据基 础。
2 数据来源
本文所采用的与项目研究内容密切相关的 数据主要包括项目题录、科技报告、学术论文 和科技成果等。项目题录一般可从项目主管机 构定期发布的立项资助公告中获取,其内容包 括项目标题、负责人、承担机构、项目类型、 资助金额、起始日期和结束日期等。本文将使 用中国科学技术信息研究所重点项目资助建立 的科技项目数据库,其涵盖了科技部支撑计划、 973 计划和 863 计划,以及国家自然科学基金 等项目,累计总量约为 40 万条。科技报告将主 要来自国家科技报告服务系统,该系统目前已 公开 6 万余篇科技报告的题录信息,包括报告 题目、报告类型、报告作者、中英文摘要、中 英文关键词等信息。学术论文主要来自 Web of Science、万方数据等平台收录的公开出版的论 文,其题录信息是对所有用户开放的,包括论 文标题、作者、机构、关键词、摘要、分类号、 年卷期和基金资助等信息。科技成果是指项目 所产出的新技术、新产品、新工艺、新材料、 新装置及其系统等,其主要来自国家科技成果 转化项目库平台。该平台目前已公开约 1.3 万 条科技成果的题录信息,包括成果名称、关键 词和成果简介等。注册用户可获取更详细的成 果信息。本文将主要使用上述题录信息,重点 利用标题、关键词和摘要等信息来间接表示项 目的研究内容。
3 整合模型
针对项目申报书获取困难的现状,通过收 集与项目相关的其他信息间接描述其研究内容 是合理和可行的方案之一。本文给出一种整合 与项目密切相关的项目题录、学术论文、科技 报告和科技成果等信息的数据模型如图 1 所 示。其中,科技项目表是整个模型的核心,包 括项目 ID、标题、负责人 ID、机构 ID、起始 日期和结束日期等字段。科技项目表通过关联 表 Project-Report 建立与科技报告表之间 1 对 1的对应关系;通过关联表 Project-Paper 建立与 学术论文表之间的多对多的对应关系;通过关 联表 Project-Achievement 建立与科技成果表之 间多对多的对应关系。科技报告表、学术论文 表和科技成果表分别保存了项目的不同形式产 出物的题录信息,包含了反映项目研究内容的 重要信息。这些表具有相似的字段结构,包括 ID、标题、关键词、摘要、作者 ID 和机构 ID 等字段。上述信息经关联整合后,通过项目 ID 可获取项目产出物的全部信息,抽取其中的标 题、关键词和摘要等关键信息可实现对项目研 究内容的描述和表示。
人员表和机构表主要用于追溯申报者和申 报机构以前曾承担过的项目记录。这些信息将 用于辅助计算项目的相似度,其遵循的基本假 设为重复项目出现在同一人员所主持的项目中 或同一机构所承担项目中的概率高于其他的情 况。因此,将对满足上述假设的项目进行重点 关注和排查。其中,人员表包括人员 ID、姓名、 出生日期、性别、研究领域和所属机构等字段。 通过人员 ID 建立的关联关系,可获取该人员所 承担的项目信息,提交的科技报告信息,发表 的论文信息和提交的成果信息。机构表包括机 构 ID、机构名称、机构类型、机构研究领域、 所属国家和联系方式等字段。通过机构 ID 建立 的关联关系,可获取该机构所承担的项目信息, 提交的科技报告信息,发表的论文信息和提交 的成果信息。
4 描述模型
目前普遍采用的项目描述模型是基于项目 申报书的向量空间模型,存在前面分析所指出 的信息丢失和项目申报书难以获取的问题。本 文尝试提出一种描述项目研究内容的数据模型 如图 2 所示,不采用传统的降维处理,而是利 用项目的产出物所包含的关键词、标题和摘要 的内容对其研究内容进行描述。由于不同形式 的产出物与项目的相关程度存在差异,如科技 报告是对项目研究过程和研究内容的总结,因 此应该具有最高的相关性。为体现上述差异, 将为不同形式的产出物即信息来源配置不同的 权重以区分其重要程度。
描述模型不同要素的权重反映了该要素与 项目研究内容的相关性,其配置方式将会影响 模型描述的准确程度。本文将采用层次分析法 确定不同要素的权重,由于论文数量较多,且 难以区分不同论文对项目研究内容的重要程度, 因此在算法实现时将其设置为相同的权重以简 化其配置过程。科技成果存在相同问题,也将 采用上述权重配置方法。
项目的相似度将考虑四个方面的因素计算 得到,即分别由关键词集合、标题集合和摘要 集合计算得到的相似度,以及由相关辅助信息 确定的影响因子,其计算公式表示为公式(2): 基于重复项目出现的一般规律,我们假 设重复项目出现在同一人员所主持的项目中 或同一机构所承担项目中的概率高于其他的 情况。为体现上述因素的影响,将引入因子 Δp+o=Δper+Δorg提升满足假设条件项目的相似度, 其中 Δper 为同一人员所产生的影响,Δorg 表示同 一机构所产生的影响。
经上述计算过程后,可得到检索词集合与 全部已有项目的相似度,选取超出阈值的项目 作为重复项目的候选,最后由专家小组审核后 判定该项目是否为重复。需要指出的是,重复 项目的判定是一个复杂的过程,需要综合的背 景知识和较高的判断力,因此计算产出的候选 集合仅提供可疑项目的清单和客观的事实依据, 最终是否为重复项目的判定将由专家小组作出。 本文从信息整合的角度提出了一种用于整 合项目产出物信息和描述项目研究内容的数据 模型,解决了项目查重所需的数据标识、描述 和整合机制问题。该模型的应用场景将是面向 大数据背景下的项目查重,将对海量的信息进 行采集和加工,因此需要制定一系列的标准和 规范来保证数据加工的准确性,并建立严格的 工作流程实现数据的处理。
该数据模型采用关键词、标题和摘要等原 始信息建模和描述项目的研究内容,未采用信 息降维等处理方法。其优点是在最大程度上保 证了信息的完整性,提升了项目描述的准确性,但缺点是大幅增加了计算的复杂度。为解决上 述问题,我们后续拟研究和利用大数据挖掘的 思想来构建分布式的项目查重系统,以提高其 查重计算的速度。其中,Hadoop 是一种开源且 相对成熟的技术,其基本原理为 “ 分而治之 ” 的思想,分别利用 Map 和 Reduce 操作对业务 逻辑进行拆分和对结果进行归纳,从而实现快 速的分布式计算。如何针对 Hadoop 技术框架的 特点建立相应的项目查重的业务逻辑将是未来 需解决的关键问题。
6 结束语
本文提出了一种用于项目查重的数据模型, 通过整合与项目相关的科技报告、学术论文和 科技成果等信息,抽取其中的关键词、标题和 摘要信息对项目的研究内容进行间接的描述。 该模型提供了一种描述项目研究内容的新思路 和新方法,在一定程度上解决了项目申报书难 以获取的问题,可在更大的范围内实施项目查 重,因此具有重要的研究和应用价值。

相关文章:浅谈法学本科毕业论文的改革