论文查重 | 论文文献库 | 一种基于网页指纹的网页查重技术研究

一种基于网页指纹的网页查重技术研究

来源:论文查重 时间:2019-08-06 10:47:21

研究网页论文查重问题。 针对传统的SCAM网页查重算法根据比较几个关键词网页中出现次数来判断网页是否重复, 当 网 站中存在相似网页时, 由于其关键词非常相近, 导致出现误判, 造成查重准确率不高的问题。 本文提出一种网页指纹查重 算 法, 通过采用信息检索技术, 提取出待检测网页的网页指纹, 然后通过与网页库中的网页指纹比较判决, 完成网页的查重, 避 免了传统方法 只依靠几个关键 词而造成的查重准确率不高的问题。 实验证明, 这种利用网页指纹查重的方法能准确判断 网页是否重复, 提高了网页信息的准确性, 取得了满意的结果。

相关文章:基于语义扩展与注意力网络的问题细粒度分类