垂直搜索引擎中Web信息抽取技术研究

论文摘要

目前Web上的资源日益增多,为更有效地利用这些资源,近年来产生了垂直搜索引擎。它是面向专业或主题的搜索引擎,只采集与专业或主题相关的信息,这样就需要从Web页面等资源中抽取出特定的主题信息,本文的研究重点正是从Web页面中抽取与特定主题相关的信息。针对目前Web信息抽取方法实现复杂等问题,设计了一种基于标签序列的Web页面主题信息抽取方法。该方法通过设定的策略和样本建立抽取规则,构建规则库,借助规则库实现对页面主题信息抽取,这样降低了处理Web页面过程的复杂性,并减少了页面处理时间。通过应用本方法抽取部分网站的手机参数页面,表明该方法召回率和准确率都比较高。当需要抽取的Web页面结构发生变化而出现主题的新属性时,目前已有的方法建立的分装器并不能随着这种变化准确地发现主题的新属性。针对该问题,提出了一种基于可信度的Web页面主题新属性发现方法,通过对待抽取属性和已抽取属性的特点进行分析,引入可信度理论,通过一系列规则和证据,量化待抽取属性需要抽取的可信度,以判断待抽取属性是否为主题的新属性。并将其应用到部分网站页面手机参数主题属性发现中,实验证明该方法能够较为准确发现页面中主题的新属性。最后设计了一种垂直搜索引擎原型系统,主要完成了专业网络蜘蛛模块的详细设计,它综合了本文提出的Web页面主题信息抽取方法和Web页面主题新属性发现方法,以实现对页面主题信息的采集。

论文目录

摘要

ABSTRACT

第一章绪论

1.1 研究背景

1.2 研究现状

1.2.1 Web信息抽取技术研究现状

1.2.2 搜索引擎发展现状

1.3 研究内容

1.4 本文组织结构

第二章 Web信息抽取及垂直搜索引擎技术

2.1 DOM技术

2.1.1 DOM

2.1.2 Cobra软件

2.2 分装器

2.3 Web信息抽取评价指标

2.4 文本预处理

2.4.1 文本分类

2.4.2 中文分词

2.5 Lucene工具包

2.6 垂直搜索引擎原理

2.7 本章小结

第三章基于标签序列的 Web页面主题信息抽取方法研究

3.1 引言

3.2 相关概念与分析

3.2.1 相关概念

3.2.2 页面结构分析

3.2.3 主题属性页面显示格式特征分析

3.2.4 主题属性页面表示方式特征分析

3.3 一种基于标签序列的Web页面主题信息抽取方法

3.3.1 相关策略

3.3.2 相关定义

3.3.3 基于标签序列的Web页面主题信息抽取模型

3.3.4 样本训练

3.3.5 主题信息抽取

3.4 实验

3.4.1 实验过程

3.4.2 实验分析

3.5 本章小结

第四章基于可信度的Web页面主题新属性发现

4.1 引言

4.2 可信度

4.3 一种基于可信度的 Web页面主题新属性发现方法

4.3.1 证据定义

4.3.2 基于可信度的Web页面主题新属性发现模型

4.3.3 字体关系可信度

4.3.4 背景关系可信度

4.3.5 待抽取属性名与已抽取属性名拥有相同父节点可信度

4.3.6 待抽取属性名与已抽取属性名格式相同可信度

4.3.7 待抽取属性名与用户感兴趣范围关系可信度

4.4 实验

4.4.1 实验过程

4.4.2 实验分析

4.5 本章小结

第五章垂直搜索引擎原型系统设计

5.1 系统整体框架

5.2 总体结构

5.2.1 模块介绍

5.2.2 系统处理流程

5.3 专业网络蜘蛛

5.4 总体设计

5.4.1 URL队列管理子模块

5.4.2 主题信息抽取与新属性发现子模块

5.5 本章小结

第六章总结和展望

6.1 本文工作总结

6.2 进一步展望

参考文献

致谢

攻读学位期间主要的研究成果

垂直搜索引擎中Web信息抽取技术研究

论文摘要

论文目录

相关论文文献

猜你喜欢