• 特定领域的Deep Web数据抽取与语义标注研究

    特定领域的Deep Web数据抽取与语义标注研究

    论文摘要随着Internet技术的飞速发展,隐藏在Web后台数据库中的信息资源因为其数据量大、结构完整受到了广泛关注,这些信息资源通常是由用户在Web查询页面提交查询请求后,以...
  • 基于Web挖掘的中文网页分类的研究与实现

    基于Web挖掘的中文网页分类的研究与实现

    论文摘要在当今信息时代,网络已经成为人们获取各种信息的主要渠道。其中,网页是承载这些信息的最主要载体。目前,网页数量已经相当庞大,并且每天都还在增长,网页内容也混杂不堪。为了能...
  • Web挖掘中信息采集技术研究与实现

    Web挖掘中信息采集技术研究与实现

    论文摘要万维网(Web)是世界上规模最大的公共数据源,但Web上信息资源的有效利用是一个难点。Web信息资源大多以HTML文档形式存在,HTML文档的特点决定了它无法作为有效的...
  • 基于多特征的HTML网页内容提取的研究

    基于多特征的HTML网页内容提取的研究

    论文摘要网页内往往包含丰富而不同的内容,可以分为主题相关内容和主题不相关内容,识别出主题相关内容应用于网页检索,分类等,可以很大程度上节约空间以及提高这些应用的性能。此方面的研...
  • 搜索引擎中网页净化与消重技术研究

    搜索引擎中网页净化与消重技术研究

    论文摘要互联网的飞速发展导致数字化信息呈爆炸式增长。搜索引擎作为帮助人们在海量信息中寻觅所需信息的工具,其重要性与日俱增。然而,由于网页噪音和重复网页的存在,搜索引擎的检索结果...