论文查重 | 论文文献库 | 融合耦合距离区分度和强类别特征的短文本相似度计算方法

融合耦合距离区分度和强类别特征的短文本相似度计算方法

来源:论文查重 时间:2019-08-05 10:54:51

摘 要: 短文本相似度论文查重计算在社会网络、文本挖掘和自然语言处理等领域中起着至关重要的作用. 针对短文本 内容简短、特征稀疏等特点,以及传统的短文本相似度计算忽略类别信息等问题,提出一种融合耦合距离区分度和强 类别特征的短文本相似度计算方法. 一方面,在整个短文本语料库中利用两个共现词之间的距离计算词项共现距离相 关度,并以此来对词项加权从而捕获词项间内联和外联关系,得到短文本的耦合距离区分度相似度;另一方面,基于少 量带类别标签的监督数据提取每类中强类别区分能力的特征项作为强类别特征集合,并利用词项的上下文来对强类 别特征语义消歧,然后基于文本间包含相同类别的强类别特征数量来衡量文本间的相似度. 最后,本文结合耦合距离 区分度和强类别特征来衡量短文本的相似度. 经实验证明本文提出的方法能够提高短文本相似度计算的准确率.
1 引言
随着互联网技术的飞速发展,微博,微信,手机短信 凭借开放性和便捷性等优势,已发展成为人们社交和 娱乐的主流媒体,是人们了解时事动态和发表观点和 评论的主要平台[1]. 面对这些应用产生的超大规模短文本数据,怎样挖掘隐藏在数据中的巨大的潜在价值 是研究的热点和难点. 而短文本相似度的计算的优劣 对于挖掘数据隐藏的价值起着至关重要的作用,被大 量用于文本聚类,舆情分析,兴趣推荐等多个领域. 当前短文本相似度的计算方法主要分为两大类. 第 一类方法常见的是在向量空间模型的基础上计算向量间 的相似度,典型的工作有:Song 等人[2]利用共现词项的概 率相关度来计算词项在文本中的权重改进了相似度计算 方法. 但是该类方法并未很好的描述词项间更深层次的 关系. 第二类基于外部语料库的方法,常见的方法有:Li 等人[3]利用大规模语义网络 Probase 将两个词项映射到 概念空间中,并在聚类后的概念空间中计算词项的相似 度. 基于语料库的方法的局限在于:只能处理语料库中的 词项,不能处理语料库中未出现的词项.
本文针对上述缺陷提出一种融合耦合距离区分度和 强类别特征的短文本相似度计算方法,首先利用词项的 关联权重计算词项的内联关系,接着利用链接词产生的 路径的共享熵来表征外联关系,然后耦合这两种关系得 到耦合距离区分度. 此外本文利用有监督的方法来衡量 文本间的相似度,即利用加类标数据得到每个类别的强 类别特征集合,并利用强类别特征词项的上下文信息进 行语义消歧,基于文本包含每个类的强类别特征越多则 越相似,得到强类别特征相似度. 最后通过平衡因子来调 节两种相似度来得到最终的短文本相似度.
2. 2. 2 外联关系
内联关系仅仅捕获了两个共现词项的显性关系,但 是并未考虑两个词项未在文本中共现过,但通过一些其 他词项形成链接路径而产生一定的关联关系. 本节中引 入外联关系来建模词项间的隐含关系. 通过考虑这种以其它词项为路径的词对,构建词对外联关系图(Inter-Cou- pling Graph,ICG),其中顶点为词项,边表示词项间的关 系,当且仅当词对在文本中共现则结点存在连边[5]. 定义 2(外联路径) 对于任意两个词项 ti和 tj,存 在一条或多条从词项 ti开始,且有序的链接多个词项后 以 t j结束的词项序列称为路径,则词项间的外联路径被 形式化的定义为:
4 实验与性能分析
4. 1 实验数据分析
本文在接下来的实验中使用三个数据集,包括 DBLP[8]数据集,搜狗语料库数据集[9] 和 20Newsgroups[10] 数据集来验证本文方法的有效性. 其中 DBLP 是计算机 领域内英文文献的集成数据库系统,通过爬取了 DBLP 中数据挖掘,人工智能,自然语言处理等 10 个领域的文 章标题作为实验数据,每个领域包含 1000 篇文章标题. 搜狗语料库来源于 Sohu 新闻网站保存的经过手工整理 与分类的新闻语料,符合短文本场景本文只抽取新闻标 题作为实验数据,搜狗语料库包含汽车,财经,IT 等 11 个 类别,每个类别选取 1000 篇新闻标题作为实验数据. 而 20newsgroups 数据集是用于文本领域研究的国际标准数 据集之一,数据集收集了大约 20,000 左右的新闻组文 档,均匀分为 20 个不同的主题,本文主要聚焦于短文本, 因此实验只选取文章标题作为实验数据.
4. 2 评价指标
在文本聚类中,相似度的计算的优劣决定着聚类 算法的性能. 本文采用划分聚类中的 k-means 聚类算 法. 使用 k-means 算法来对文本聚类时,通过观察聚类 结果来衡量相似度计算的效果,实验中 k 值分别被设置 为三个数据集类别的个数(即 DBLP 为 10,Sougou 为 11,20newsgroups 为 20). 本文将采用以下两个经典的聚 类指标来评价算法的性能:兰德指数(Rand Index,RI) 和 F 值(F-measure).
4. 3 实验结果与分析
为了验证本文方法的有效性设计了两个实验. 一 是对本文中的三个重要参数 α,L,β 的分析;二是比较 本文提出的三种方法的聚类性能和比较本文的方法和 已存在的相似度计算方法的聚类性能的对比.
4. 3. 1 参数对算法的影响
在本节中,通过一系列实验来分析参数 α,L,β 对 算法性能的影响. 其中参数 α 用于调节耦合距离区分 度中的内联和外联关系的相对重要性,L 用来调节每个 类中强类别特征的个数,β 用来调节耦合距离相似度和 强类别特征相似度间的相对重要性.
参数 α 的取值以 0. 1 为步长从[0,1]之间改变 α 的 取值,分析 CR 在不同数据集上两种评价指标的变化趋 势. 通过图 1 观察到,即随着 α 取值逐渐增大,RI 和 F measure 值也随着递增且当 α = 0. 5 时达到峰值,之后随 着 α 的增大,RI 和 F-measure 的值减小. 这是因为随着 α 的增大,外联关系可以提升聚类性能,也就意味这外联关 系对内联关系有促进作用,外联关系考虑到了词项即使 不共现也可以通过外联路径产生关联性,当 α > 0. 5 时, 外联关系会影响聚类性能的提升. 因此在接下来的实验 中本文统一选取 α =0. 5 作为最优的实验参数.
通过调节 L 的取值来观察对 SCF 方法的聚类性能 的影响,使用 k-means 聚类选取使得 F-measure 最高的 L 值. 通过表 1 可以看到随着 L 值增加,F-measure 和 RI也随着增加,当 L 等于 200 时达到峰值,紧接着随着 L 的增加 F-measure 反而变小,最后趋于稳定. 分析原因 是 L 的取值过小,会导致该类中强类别特征不足代表 该类的类别信息,而 L 值过大则会导致一些不太重要 的词项作为强类别特征来看待,使得每个类的类别信 息含有噪声,导致相似度计算结果不精确. 通过实验结 果的分析,最后选取 L = 200 为实验最优参数.
β 的取值以 0. 1 为步长在[0,1]之间逐渐递增,且根 据前面的实验参数 α 选择为 0. 5,L 的取值选为 200. 实验 结果如图 2 所示,当 β 逐渐递增时,RI 和 F-measure 值随 之递增,当 β =0. 7 时,CDDCF 方法的 RI 和 F-measure 达 到峰值. 这是因为耦合距离相似度对于整个相似度的计 算更重要,原因在于 CR 方法考虑到词项间的更全面的 耦合关系,使得计算结果更加精确. 当 β >0. 7 时,之后随 着 β 的递增,RI 和 F-measure 值反而减小,且当 β =1 时, CDDCF 方法退化为耦合距离区分度的相似度.
4. 3. 2 聚类性能的评估
实验通过设置本文方法(CDDCF)与三个基准方法的 实验结果对比来验证本文方法的有效性. 三种方法为:融 合共现距离和区分度的短文本相似度计算方法(CD PC)[11],耦合词项关系模型(CRM)[4]和强类别近邻传播聚 类算法(SCFAP)[12]和词分布表示. 实验结果如表2 所示. 观察表 2,可以看到本文的方法在聚类性能上优于 其他四种基准方法. 分析实验结果,CDPC 方法仅仅利 用了词项间的共现和距离关系,因此缺少了词项间的 更丰富的语义关系导致性能最差. 而 CRM 不仅考虑到 了词项的共现关系(内联关系),而且考虑到了外联关 系,但其忽略了词项间的高阶语义关系. SCFAP 方法的 性能最差,这是因为 SCFAP 对于文本的语境和词项间 的关系没有考虑到,因此 SCFAP 聚类性能劣与 CDPC. 而本文的 CDDCF 方法不仅考虑到了词项的类别信息,而且将词项的内联关系和外联关系都考虑到了.
5 结束语
针对短文本特征稀疏,本文提出了一种融合耦合距 离区分度和强类别特征的短文本相似度计算方法. 首先 计算考虑耦合词项的内联和外联关系得到文本的相似度 计算方法,然后提取带类别信息的文本的强类别特征和 语义消歧来计算文本强类别特征相似度,最后本文结合 两种方法得到最终的相似度计算方法. 在今后研究中,考 虑将本文的方法与深度学习相结合,得到语义信息和语 境信息更丰富的文本相似度的计算方法.

相关文章:基于文本相似度的心理预警技术研究