• 面向主题的搜索引擎的设计与实现

    面向主题的搜索引擎的设计与实现

    论文摘要在社会信息化的高速发展下,网络作为现代最重要的信息发布和交互平台,给人们带来了前所未有的信息资源;同时,也给人们带来了更大的挑战。面对如此丰富的网络资源,如何迅速定位所...
  • 基于DOM的HTML网页正文信息抽取模块的设计与实现

    基于DOM的HTML网页正文信息抽取模块的设计与实现

    论文摘要HTML网页正文信息抽取功能已经成为目前很多互联网应用的基础工作和亟待解决的问题。HTML网页所要表达的“正文”信息通常会包含在“噪音”信息中。我们在浏览网页的时候经常...
  • 基于语义引力及密度分布的Web文本聚类算法的研究与实现

    基于语义引力及密度分布的Web文本聚类算法的研究与实现

    论文摘要随着网络技术的不断发展,Web信息资源的极大丰富,如何高效地获取互联网上的资源以及对资源的有效分析处理,越来越成为数据挖掘工作亟待解决的问题。一些较为传统的方法仍然采用...
  • 基于内容单元的网页解析与内容提取

    基于内容单元的网页解析与内容提取

    论文摘要随着互联网技术的发展,在线中文网页的数量迅速增加,互联网上的信息量越来越大。搜索引擎能够有效地组织和分析海量的信息资源,帮助用户迅速地获取所需要的知识和信息。然而互联网...
  • PC机上基于IE内核的网页浏览器开发

    PC机上基于IE内核的网页浏览器开发

    论文摘要Web浏览器是一种常用的客户端应用程序。是客户与网络交互的最主要平台之一。浏览器的出现,给人们提供了一种方便、快捷的网上信息浏览和查询工具,极大的改善了Internet...
  • 基于Herixtrix和Lucene的Web站内搜索系统

    基于Herixtrix和Lucene的Web站内搜索系统

    论文摘要网站随着内容量的一步一步增加,人们查询信息越来越困难,很多内容在发表之后就很快被湮没,不能被用户找到,成为“信息孤岛”。垂直搜索引擎通过网络搜索软件(又称为网络搜索机器...