基于网页结构特征的垂直搜索引擎研究与实现

基于网页结构特征的垂直搜索引擎研究与实现

论文摘要

随着Internet的飞速发展,人们越来越依靠网络来查找他们所需要的信息。Internet的信息资源具有多样性、分布性、开放性、时效性和异构性的特点,同一主题的信息通常分散存放在不同网站上,表现的形式也各不相同。垂直搜索引擎可以将这些信息按主题进行抽取,以结构化形式存储。本文提出了一种基于网页结构特征的垂直搜索引擎模型。根据专业和行业网站的领域特点,提出相应主题的元数据统一表示标准。通过对对应网站的网页分析,依据元数据表示标准和网页结构特征,提炼出具体网站网页的信息抽取模板。垂直搜索引擎根据该信息抽取模板对目标网站进行网页爬行、页面转换、抽取数据和分离数据及保存数据。网站的信息抽取模板采用XML进行描述,对应网页结构特征。由于采用标准的XML并以文件形式存放,可以方便地在关心该网站信息的用户之间共享。根据本文提出的基于网页结构特征的垂直搜索引擎模型,我们开发了一个基于网页结构特征的垂直搜索引擎系统。整个系统以元数据模型为基础,对网站网页结构进行结构化处理,获得网页的结构化信息。基于该搜索引擎,我们开发了车货配物流等垂直搜索网站,在实践中进一步得到了检验。本文的主要工作和成果如下:1.研究基于网页结构特征的垂直搜索引擎系统的工作原理和基本系统结构通过对垂直搜索引擎技术和相关技术的研究,提出了基于网页结构特征的垂直搜索引擎工作模型,将系统处理流程主要分为:网页爬行、页面转换、抽取数据、分离数据。基于工作模型,本文提出了一个分层的系统架构。2.提出了一种针对行业网站网页信息的元数据模型本课题通过对行业信息分析,提出一种通用的和标准化的元数据模型。同时利用XML等技术实现了该模型,并根据具体网站的网页结构特征,利用XSLT技术提出了将网站网页信息转换为符合该元数据模型的数据的信息抽取模板方式。3 .实现了一个基于网页结构特征的垂直搜索引擎系统本课题根据系统模型,利用Microsoft .Net技术实现了一个基于网页结构特征的垂直搜索引擎系统。该系统采用面向接口编程,利用系统配置文件使系统具备有高可配置性和弹性。同时利用多线程技术,最大限度地利用计算机和网络资源,使系统具备有很高的工作效率。4.建立了车货配物流原型系统以本课题开发的垂直搜索引擎系统为基础,依据元数据模型,结合互联网上车货配网站,确立车货配元数据模型和信息抽取模板。利用该系统,通过对车货配网站信息的垂直搜索,获取网站的相应信息。建立一个网站原型,提供车货配垂直搜索服务,论证了系统的可行性和可用性。车货配物流信息搜索工作结果显示,基于网页结构特征的垂直搜索引擎是一种具备商业价值的垂直搜索引擎。由于该搜索引擎具有良好的通用性,将数据描述和数据处理进行抽象分离,所有的部分采用组件构建,将其应用于其他专业或行业中,也将会带来很大的商机机会和社会效益。

论文目录

  • 摘要
  • ABSTRACT
  • 1 绪论
  • 1.1 研究背景
  • 1.2 国内外现状
  • 1.3 课题意义和成果
  • 1.3.1 研究目标
  • 1.3.2 研究内容与创新点
  • 1.4 本文的组织结构
  • 2 垂直搜索技术分析
  • 2.1 垂直搜索技术研究综述
  • 2.1.1 信息来源
  • 2.1.2 与通用搜索引擎比较
  • 2.2 垂直搜索技术研究中存在的问题
  • 2.2.1 面向领域、实时和可管理的网页采集技术
  • 2.2.2 结构化数据的网页解析技术
  • 2.3 搜索引擎的主要评价指标
  • 2.4 本文的技术路线
  • 2.5 相关理论简介
  • 2.5.1 信息抽取
  • 2.5.2 元数据
  • 2.6 本章小结
  • 3 基于网页结构特征的垂直搜索引擎研究与设计
  • 3.1 实现目标
  • 3.2 元数据模型
  • 3.2.1 导航数据
  • 3.2.2 原子内容
  • 3.3 处理流程
  • 3.3.1 网页爬行
  • 3.3.2 页面转换
  • 3.3.3 抽取数据
  • 3.3.4 分离数据
  • 3.4 系统架构
  • 3.4.1 业务实体
  • 3.4.2 控制层
  • 3.4.3 处理流程层
  • 3.5 本章小结
  • 4 基于网页结构特征的垂直搜索引擎实现与应用
  • 4.1 系统实现
  • 4.1.1 开发环境
  • 4.1.2 多线程搜索
  • 4.1.3 配置文件
  • 4.2 系统实践
  • 4.2.1 车货配元数据模型
  • 4.2.2 搜索数据
  • 4.2.3 搜索服务
  • 4.3 本章小结
  • 5 总结与展望
  • 5.1 已取得的成果
  • 5.2 研究展望
  • 参考文献
  • 致谢
  • 攻读硕士学位期间已发表或录用的论文
  • 相关论文文献

    标签:;  ;  ;  

    基于网页结构特征的垂直搜索引擎研究与实现
    下载Doc文档

    猜你喜欢