WEB主题信息搜集技术研究

WEB主题信息搜集技术研究

论文摘要

万维网(Web)可以视为一本汇聚了人类文明的百科全书,搜索引擎无疑是从这个百科全书中获取知识和信息最重要的工具。然而,传统搜索引擎和Web信息搜集技术在高度发展的同时,却面临着越来越大的困难与挑战:Web拥有海量信息,且以指数速度不断增长,并始终处于动态变化之中。与此同时,人们获取专业化、个性化信息的需求也越来越强烈。与传统的面向整个Web的信息搜集技术不同,Web主题信息搜集仅仅关心万维网中某一领域的信息,它选择性地对Web进行访问,故而能够显著节省软、硬件资源,并充分满足用户的个性化需求。针对Web主题信息搜集技术,论文主要在以下几方面进行了一些工作:1)给出了一种基于带权语言网络的网页关键词抽取方法。论文基于复杂网络中心化的相关理论,以带权语言网络来表征网页文档,并采用介数指标与紧密度指标来度量网页词语的中心度,实现了网页关键词的抽取算法。2)论述了Web主题信息的搜集策略。论文分析了Web主题信息的分布规律,以此为领域知识建立了Web主题信息搜集过程启发式搜索的估价函数,该函数综合了URL字串信息、父亲网页及兄弟网页信息、超链接锚文字以及链接结构信息。同时,针对Web主题分布的“隧道”特性,论文提出采取“随机选取”与“最佳优先”相结合的搜索策略,使信息搜集过程可以在力保收益率的同时提高其召回率。3)设计了Web主题信息搜集的实验平台,并针对论文给出的基于带权语言网络的关键词抽取方法及主题信息搜集策略进行了实验。实验结果表明:基于带权语言网络的网页关键词抽取方法所抽取出的关键词能够很好地符合网页主题,且其并不局限于网页中的高频词;同时,论文给出的URL价值度量方法及“随机选取”与“最佳优先”相结合的主题信息搜索策略也具有较好的搜集性能。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 研究背景
  • 1.1.1 搜索引擎
  • 1.1.2 Web 主题信息搜集的研究意义
  • 1.1.3 Web 主题信息搜集研究现状
  • 1.2 论文研究内容及组织
  • 第二章 WEB 主题信息搜集技术
  • 2.1 搜集主题的表示
  • 2.2 种子URL 的确定
  • 2.3 待访URL 的选取
  • 2.4 网页下载
  • 2.4.1 网页下载常用协议
  • 2.4.2 网页下载
  • 2.5 网页解析
  • 2.5.1 HTML 文件标签树
  • 2.5.2 网页正文抽取
  • 2.6 WEB 重访
  • 2.7 并行分布式搜集
  • 2.8 本章小节
  • 第三章 基于带权语言网络的网页关键词抽取
  • 3.1 复杂网络及复杂网络的中心度
  • 3.1.1 复杂网络
  • 3.1.2 复杂网络的中心度
  • 3.2 带权语言网络
  • 3.2.1 语言网络
  • 3.2.2 语言网络的权
  • 3.3 基于带权语言网络的网页关键词抽取
  • 3.3.1 带权语言网络的词语权重度量
  • 3.3.2 基于带权语言网络的关键词抽取算法
  • 3.4 本章小节
  • 第四章 WEB 主题信息搜集策略
  • 4.1 WEB 主题信息搜集问题
  • 4.1.1 搜索及启发式搜索
  • 4.1.2 Web 主题信息搜集形式化描述及算法
  • 4.2 WEB 主题信息搜集中的领域知识
  • 4.2.1 超链接建立目的
  • 4.2.2 Web 主题信息分布规律
  • 4.3 URL 价值测度
  • 4.3.1 网页的主题相关性计算
  • 4.3.2 URL 价值测度
  • 4.4 提高信息召回率的措施
  • 4.5 本章小节
  • 第五章 实验及结果分析
  • 5.1 实验平台
  • 5.2 网页关键词抽取实验及结果分析
  • 5.3 WEB 主题信息搜集策略实验及结果分析
  • 5.3.1 Web 主题信息搜集性能度量指标
  • 5.3.2 启发式搜索中不同URL 价值测度方法的搜集性能比较
  • 5.3.3 两种主题信息搜集策略的召回率比较
  • 5.4 本章小节
  • 第六章 总结与展望
  • 6.1 论文所做的主要工作
  • 6.2 展望
  • 参考文献
  • 致谢
  • 附录A 论文部分源代码
  • 作者简介及在校期间发表论文
  • 相关论文文献

    • [1].竞争对手信息搜集的基本内容[J]. 竞争情报 2008(03)
    • [2].浅谈如何利用云技术等多种媒介来提高学生信息搜集和处理能力[J]. 才智 2016(18)
    • [3].学会提升信息搜集整理能力[J]. 职业教育(上旬刊) 2016(12)
    • [4].幼儿评价的开展如何做好信息搜集及保育工作[J]. 中华少年 2017(24)
    • [5].第三学段学生信息搜集运用能力的现状分析及对策思考[J]. 教学月刊小学版(语文) 2017(Z2)
    • [6].大学生就业信息搜集技能研究[J]. 现代企业教育 2014(20)
    • [7].论“选择-进入”机制在网络个人信息搜集利益平衡中的价值[J]. 长春市委党校学报 2009(04)
    • [8].基于Web2.0的竞争情报信息搜集工作研究[J]. 大学图书情报学刊 2008(04)
    • [9].从“福建事变”看近代美国驻华领事馆对华信息搜集[J]. 党史博览 2019(03)
    • [10].网络信息搜集工具分析之CNKI与重庆维普的比较[J]. 科技广场 2012(04)
    • [11].谈培养学生课前信息搜集整理能力的策略[J]. 学校管理 2009(06)
    • [12].重视搜集信息 培养自学能力[J]. 现代教育科学(小学教师) 2010(06)
    • [13].数字化人机界面操纵员监视过程中信息搜集失误试验研究[J]. 安全与环境学报 2016(05)
    • [14].提高幼儿搜集信息能力的策略——以科学探究活动的信息搜集为例[J]. 幼儿教育研究 2020(01)
    • [15].广交会“客户信息”搜集技术研究[J]. 中外企业家 2016(29)
    • [16].生物教学中学生信息搜集能力的培养[J]. 教学与管理 2009(10)
    • [17].战争信息署档案资源导论[J]. 近现代国际关系史研究 2017(01)
    • [18].互联网特定领域信息搜集系统设计[J]. 信息安全与通信保密 2008(10)
    • [19].创设有效活动 激发学习兴趣[J]. 青海教育 2008(Z2)
    • [20].如何培养低年级学生信息搜集能力[J]. 小学语文教学 2013(32)
    • [21].教育信息搜集在图书馆中的应用[J]. 中国教育技术装备 2009(27)
    • [22].web安全信息搜集平台设计要点探讨[J]. 电子世界 2018(15)
    • [23].如何在小学语文教学中培养学生的信息搜集、处理能力[J]. 课外语文 2019(30)
    • [24].小学语文教学中如何培养学生的信息搜集与处理能力[J]. 课程教育研究 2018(31)
    • [25].近代美国驻华领事馆对华信息搜集探析——以“福建事变”为例[J]. 南京社会科学 2018(05)
    • [26].消费者自我信息搜集不全面对品牌资产的影响[J]. 消费导刊 2009(01)
    • [27].培养学生搜集和处理信息能力的有效策略[J]. 宁波教育学院学报 2012(06)
    • [28].基于移动信息咨询服务系统的学科热点信息搜集[J]. 中华医学图书情报杂志 2015(08)
    • [29].高空视觉图像识别技术下的信息搜集系统优化设计[J]. 现代电子技术 2015(24)
    • [30].从信息利用角度看行政立法的公民参与[J]. 法制与社会 2010(03)

    标签:;  ;  ;  ;  ;  

    WEB主题信息搜集技术研究
    下载Doc文档

    猜你喜欢