基于本体的个人站点信息抽取研究

基于本体的个人站点信息抽取研究

论文摘要

身处一个高速发展的信息时代,随着互联网的日渐普及,信息载体的日益增多,使得大量的无关信息充斥着人们的眼球;面对信息量的爆炸式增长,单纯的依靠人工筛选价值信息已经不太现实。然而信息时代的人们对于信息的渴求度又是十分强烈的,如何从这些繁多的信息量中选取出用户感兴趣的价值信息,满足他们的信息效率需求,已经是当今研究的重要课题。这些都推动了信息抽取研究工作的进行,目前,抽取工具已经成为了人们日常生活中不可缺少的好帮手,信息抽取技术也是在日渐不断完善的过程中。而现在信息量的大幅增长主要就是依靠互联网这个载体,但是由于网上信息资源的异质性和缺乏统一的结构组织,使得大规模的网络信息的浏览和抽取都受到一定程度的限制,于是将信息抽取技术应用于互联网作为缓解这种局面的一种有效途径而出现,相对于维护费用昂贵的精密网络挖掘程序,网络信息抽取技术一直致力于自动地将输入页面转化为统一的结构化数据。因此,本文采用网络信息抽取技术来对所需信息项进行筛选,构建研究领域的参照模型,据此设计信息抽取系统完成对目标网页的抽取。将本体引入网络信息抽取技术中,是本文研究的中心思想。本体作为一种规范性的概念关系描述,在形成模型标准的时候,具有与生俱来的优势,可以对研究领域内相关概念关系进行集约化处理,从而给出领域内目标信息框架,更加合理地对样本信息执行抽取操作。本体模型作为本文抽取过程中有力的工具,通过一个专业化的构建过程,在其全面性和互通性上可以达到令人满意的程度,使得信息抽取工作对于网页结构的依赖性较少。通过本体展示的领域内相关描述,结合样本实例,这两者是本文信息抽取所必不可少的依据。本文的目标信息源来自个人站点网页,结合自身的学术背景,以学者个人站点作为数据源,来设计本文的信息抽取系统。首先,本文对于个人站点、本体、信息抽取的知识进行了简单介绍;然后对比分析个人网站的结构特征,又结合本体的特质,确定将本体模型引入到本文的网络信息抽取技术中,使得本文的抽取策略成为可能。本文的研究重点是设计适用于抽取个人网站信息的本体模型,利用本体开发工具完成进行开发,还包括本体的检测推理以及存储这些后期工程。之后结合本体模型,构建抽取规则,利用信息抽取算法实现对网页信息的有效筛选。系统界面的简单化设计更易上手,用户可以根据自己的兴趣需要,对目标个人站点进行信息抽取,从中可以清楚的看到各个信息项的清晰描述。其中,设计本体和信息抽取规则是本文的核心内容。将基于本体的信息抽取方法与其他方法相比,对同一领域而言,可以由领域专家来定义域内的概念、关系、层次结构、概念关系间的约束等,并根据这些来生成抽取规则,之后将规则作为抽取输入文档的标准。理论上足够强大的领域本体可以使该领域的信息抽取达到很高的抽取精准度,本文的研究对提高信息抽取完备率、准确率具有一定的意义。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 前言
  • 1.1 论文研究背景
  • 1.2 研究现状及趋势
  • 1.2.1 Web 信息抽取发展历程及现状
  • 1.2.2 本体的研究现状
  • 1.3 论文研究的意义
  • 1.4 论文架构
  • 第二章 相关理论与技术
  • 2.1 个人站点
  • 2.1.1 个人站点的定义
  • 2.1.2 个人站点的类型分析
  • 2.2 本体
  • 2.2.1 本体的概念
  • 2.2.2 本体的建模元语
  • 2.2.3 本体的描述语言
  • 2.2.4 本体的分类
  • 2.2.5 本体的构建
  • 2.3 信息抽取
  • 2.3.1 信息抽取的概念
  • 2.3.2 信息抽取的关键技术
  • 2.3.3 Web 信息抽取
  • 2.3.4 基于本体的 Web 信息抽取
  • 第三章 个人站点本体的构建
  • 3.1 本体构建方法
  • 3.1.1 构建本体的步骤
  • 3.1.2 本文本体建构的方法
  • 3.2 本体设计
  • 3.2.1 个人站点实例分析
  • 3.2.2 信息项本体的概念定义
  • 3.2.3 构建 Personal Homepage Ontology
  • 3.3 使用 protégé构建本体
  • 3.3.1 概念的建立
  • 3.3.2 属性的建立
  • 3.3.3 实例的添加
  • 3.3.4 完成 ontology 设计
  • 3.4 本章小结
  • 第四章 基于本体的个人站点信息抽取算法
  • 4.1 构造抽取规则
  • 4.1.1 一步骤——生成训练集
  • 4.1.2 二步骤——定义规则
  • 4.1.3 思想——构造思想
  • 4.2 规则抽取的生成算法
  • 4.3 信息抽取算法
  • 4.4 本章小结
  • 第五章 基于本体的个人站点信息抽取系统
  • 5.1 系统模型的整体框架
  • 5.2 系统设计
  • 5.2.1 系统开发工具
  • 5.2.2 系统开发技术
  • 5.3 系统模块实现
  • 5.3.1 数据源的获取
  • 5.3.2 本体的检测解析
  • 5.3.3 本体的存储
  • 5.4 系统设计
  • 5.4.1 设计原则
  • 5.4.2 系统界面
  • 5.5 本章小结
  • 第六章 总结与展望
  • 参考文献
  • 攻读硕士学位期间发表的论文和参与的项目
  • 致谢
  • 相关论文文献

    • [1].5G站点市电新建及改造方案分析[J]. 电信技术 2019(12)
    • [2].5G站点电源面临的挑战及解决方案研究[J]. 数字通信世界 2019(12)
    • [3].提货量与快递代收站点加盟满意度的关系:基于个体门店的检验[J]. 财贸研究 2020(07)
    • [4].广州地区秋季不同站点类型地面臭氧变化特征与影响因子[J]. 环境科学 2020(08)
    • [5].站点助推:新型城镇学校教师专业化发展的创新路径——以成都市龙泉驿区第五小学为例[J]. 教育科学论坛 2020(22)
    • [6].屹立在凉风台顶峰的通信站点[J]. 中国无线电 2019(02)
    • [7].用故事感动你的出行路——《我的站点故事》主题公益系列[J]. 城市轨道交通 2019(06)
    • [8].便民设站点 居民乐开怀[J]. 民心 2018(03)
    • [9].一种支持子站的新媒体站点的设计与实现[J]. 数字技术与应用 2016(11)
    • [10].城际铁路站点核心空间功能与布局研究[J]. 现代装饰(理论) 2016(12)
    • [11].降低室内覆盖项目规划站点变更率的研究[J]. 电信技术 2016(12)
    • [12].首届欧洲自行车共享站点协商会召开[J]. 中国自行车 2017(01)
    • [13].基于互联网的商家销售站点分析与设计[J]. 信息技术与信息化 2017(04)
    • [14].高校校内交通车路线及站点规划方法研究[J]. 山西建筑 2016(06)
    • [15].如何加强对石油基层站点的管理和监督[J]. 化工管理 2016(17)
    • [16].高铁站点地区空间开发特征研究——基于京沪高铁沿线案例的实证分析[J]. 城市规划学刊 2016(01)
    • [17].高校建立健身气功辅导站点的可行性研究[J]. 湖北体育科技 2016(08)
    • [18].浅析城市公共交通站点的优化[J]. 科技创新与应用 2015(09)
    • [19].莱芜市:开展远程教育优秀站点创建活动[J]. 科技致富向导 2012(07)
    • [20].极简站点创新改造方案探究和应用[J]. 移动通信 2019(12)
    • [21].基于历史出行记录扩充的公交乘客下车站点推算方法[J]. 南京大学学报(自然科学) 2020(02)
    • [22].轨道站点合理步行可达范围建成环境与轨道通勤的关系研究——以北京市44个轨道站点为例[J]. 地理学报 2018(12)
    • [23].福建省健身气功站点现状研究[J]. 福建体育科技 2016(02)
    • [24].科技工作者调查站点体系建设的现状与展望[J]. 科协论坛 2016(08)
    • [25].高铁站点周边地区的发展与规划——基于京沪高铁的实证分析[J]. 城市规划学刊 2014(04)
    • [26].高校图书馆网络信息资源利用现状及评价体系研究——以推荐学术站点为例[J]. 图书馆学研究 2013(22)
    • [27].平原县:三项措施确保远教站点网络畅通[J]. 科技致富向导 2011(01)
    • [28].关于农村“站点会室”规范化建设的调研与思考[J]. 宁波经济(三江论坛) 2013(02)
    • [29].单一服务器下多站点设计与访问[J]. 农业网络信息 2012(01)
    • [30].站点主题结构与导航归纳技术[J]. 国防科技大学学报 2012(05)

    标签:;  ;  ;  ;  

    基于本体的个人站点信息抽取研究
    下载Doc文档

    猜你喜欢