• 面向网页去重的特征提取与重复模式发现

    面向网页去重的特征提取与重复模式发现

    论文摘要互联网的快速发展给人们带来了新的获取信息和交流的方式。随着网站和网页数目的不断增加,为了用户能方便的访问它们,搜索引擎应运而生。但由于互联网上存在大量的因转载或抄袭形成...
  • 基于文本结构的近似镜像网页去重

    基于文本结构的近似镜像网页去重

    论文摘要1998年,世界上第一个搜索引擎系统GOOGLE在其诞生之初,就以超强的实用性赢得了广大网民的使用热情,其准确、快速的网络导航性,往往能使人们在第一时间找到自己所要的信...
  • 面向搜索引擎的智能个性化研究

    面向搜索引擎的智能个性化研究

    论文摘要随着互联网上文档数量的快速增长,在Web搜索的研究方面我们面临着许多新的挑战。搜索引擎上大多数的查询是短小且意义不明确的,即使输入相同查询词的用户也可能有完全不同的搜索...
  • 基于特征码的大规模中文网页并行去重方法

    基于特征码的大规模中文网页并行去重方法

    论文摘要随着互联网的发展,网上信息迅速增加,搜索引擎作为帮助人们从网络中快速获取信息的工具,使用日益广泛。但由于存在许多网页转载的情况,搜索引擎的返回结果中存在重复信息,既浪费...