• 基于特征码的大规模中文网页并行去重方法

    基于特征码的大规模中文网页并行去重方法

    论文摘要随着互联网的发展,网上信息迅速增加,搜索引擎作为帮助人们从网络中快速获取信息的工具,使用日益广泛。但由于存在许多网页转载的情况,搜索引擎的返回结果中存在重复信息,既浪费...