基于向量空间模型的网页过滤研究

基于向量空间模型的网页过滤研究

论文摘要

随着网络信息技术的飞速发展,用户可以通过网络方便快捷地利用海量的共享信息,同时“信息爆炸”、“信息过载”、“信息垃圾”等很多问题日趋严重。而且那些无用或者有害信息的信息量远远超过了我们所需要的信息量,这给人们带来了很多不便。如何准确地表达用户需求,进而在大规模的信息流中自动地筛选出满足用户需求的信息并过滤掉无用信息和不良信息,使人们更有效地利用信息资源,已经使我们亟待解决的问题。基于以上存在的问题,本文提出了一个基于局域网中的信息过滤研究的课题。它不仅可以实现不良网页的过滤,也可以实现基于兴趣主题的网页过滤。本文介绍了网页文本过滤的发展现状、信息过滤的方法,并详细讨论了在网页文本过滤中所用到的关键技术及其实现的过程。基于网页的过滤研究,本文是采用了分级过滤的策略,首先是对流经网关的数据包实行基于IP和关键字的过滤技术,然后重点论述了基于DOM树的网页正文抽取的实现过程和基于内容的过滤技术。对于网页正文的提取部分本文实现了基于DOM树的正文提取方法。它使用户能够根据自己的需要设定参数并得到想要的结果,这样网页内容的提取结果不随网页结构的变化而变化。基于内容的过滤技术包含两个重要部分,即对网络数据信息的处理部分和对网页文本的信息处理部分。对网络数据信息的处理部分,本文主要论述了基于Windows的WinPcap下数据包的捕获,通过对TCP协议、IP协议、HTTP消息的分析,过滤掉不包含texthtml的数据包,然后实现一种链表重装的数据包还原算法把网页还原出来,同时在基于关键字过滤的过程中,本文采用了改进后的多关键字匹配算法,即基于协议分析的多关键字匹配算法,可以提高匹配效率。在网页文本的处理部分,主要对网页正文的提取进行了实现和文本表示进行了改进。针对网页这种特殊的文档,本文用改进的向量空间模型来表示文本。本文就是通过依次提取模板中的特征词,在网页文本出现的位置进行精确处理,避免了对整篇文档进行处理,尤其是当信息流中非相关文档多于相关文档以及大文本数据的处理,可以大大提高网页处理时间和精确度。最后,本文论述了对用户模板的学习,采用了改进了Rocchio算法来更新模板,提高了网页过滤的精确率。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 网页文本过滤的发展与现状研究
  • 1.2 目前主要流行的网页过滤技术
  • 1.3 课题的目的和意义
  • 1.4 本文的主要研究内容和章节安排
  • 第二章 相关理论及关键技术
  • 2.1 信息过滤技术的研究
  • 2.1.1 URL过滤
  • 2.1.2 基于关键词的过滤
  • 2.2 信息过滤模型
  • 2.3 向量空间模型简介
  • 2.3.1 VSM的几个基本概念
  • 2.3.2 文档间相似度的计算
  • 2.4 中文分词技术
  • 2.5 DOM和NEKOHTML技术探讨
  • 第三章 网页正文内容抽取
  • 3.1 网页正文内容抽取
  • 3.1.1 正文提取器功能介绍
  • 3.2 正文提取器实现
  • 3.2.1 编程环境
  • 3.2.2 程序流程
  • 3.2.3 设计与实现
  • 3.3 实验分析
  • 3.4 本章小结
  • 第四章 基于向量空间模型网页过滤设计与实现
  • 4.1 系统总体设计及结构
  • 4.2 网络数据的截获和还原
  • 4.2.1 HTTP数据包的分析和还原
  • 4.2.2 过滤算法设计
  • 4.3 网页内容过滤算法的实现
  • 4.3.1 网页的文本表示及改进
  • 4.3.2 过滤算法的确定
  • 4.4 用户初始模板及其自适应学习
  • 4.5 阈值的确定与调整
  • 4.6 文本过滤评价指标
  • 4.7 本章小结
  • 第五章 实验结果与分析
  • 5.1 实验过程
  • 5.1.1 实验环境
  • 5.1.2 测试的样本
  • 5.2 实验结果及分析
  • 第六章 总结与展望
  • 6.1 总结
  • 6.2 展望
  • 参考文献
  • 致谢
  • 研究成果及发表的学术论文
  • 作者简介
  • 北京化工大学硕士研究生学位论文答辩委员会决议书
  • 相关论文文献

    • [1].打造网页设计创新创业示范课程[J]. 河南教育(职成教) 2019(12)
    • [2].网页设计中计算机图像处理技术的应用[J]. 无线互联科技 2019(21)
    • [3].高职院校网页设计与制作课程教学改革研究[J]. 教育现代化 2019(95)
    • [4].浅谈网页设计与制作课程[J]. 电脑知识与技术 2020(01)
    • [5].浅析水墨元素融入网页设计的架构技巧[J]. 辽宁经济职业技术学院.辽宁经济管理干部学院学报 2019(06)
    • [6].分析计算机图像处理技术在网页设计中的应用价值[J]. 计算机产品与流通 2020(01)
    • [7].网页设计中计算机图像处理技术的应用[J]. 电子技术与软件工程 2019(24)
    • [8].“环球佳”医疗设备企业网页设计[J]. 出版发行研究 2019(12)
    • [9].网页设计在视觉传达设计中表现的形式[J]. 西部皮革 2020(03)
    • [10].论网页设计中计算机图像处理技术的应用[J]. 计算机产品与流通 2020(02)
    • [11].色彩节奏在网页设计中的应用研究[J]. 计算机产品与流通 2020(02)
    • [12].计算机图像处理技术在网页设计中的应用分析[J]. 电子世界 2020(04)
    • [13].网页设计中计算机图像处理技术的应用[J]. 科技风 2020(11)
    • [14].网页设计作品[J]. 上海纺织科技 2020(01)
    • [15].浅析网页设计中的色彩搭配[J]. 农家参谋 2020(01)
    • [16].党政网页电子文件采集与管理研究[J]. 办公室业务 2020(04)
    • [17].基于翻转课堂的《商务网页设计与制作》课程设计研究[J]. 中国多媒体与网络教学学报(中旬刊) 2020(03)
    • [18].水墨动画在网页设计中的应用思考[J]. 中外企业家 2020(12)
    • [19].网页设计中的色彩搭配探讨[J]. 信息与电脑(理论版) 2020(02)
    • [20].浏览器的神奇玩法[J]. 计算机与网络 2020(04)
    • [21].网页欣赏精品分析教学平台的设计[J]. 黑龙江科学 2020(07)
    • [22].关于网页设计与制作方法与应用的探讨[J]. 河北农机 2020(03)
    • [23].基于修辞资源与受众的高校网页简介英译失误分析——以东南地区部分985高校为例[J]. 黑龙江教师发展学院学报 2020(04)
    • [24].关于“网页设计与制作”教学的中高职衔接问题初探[J]. 电脑知识与技术 2020(09)
    • [25].网页设计中计算机图像处理技术的应用[J]. 中外企业家 2020(16)
    • [26].网页档案信息长期保存策略研究[J]. 档案时空 2019(12)
    • [27].中职《网页设计与制作》课程教学综述[J]. 信息记录材料 2020(03)
    • [28].基于眼动跟踪的教育网页“优势区域”论证研究[J]. 现代计算机 2020(13)
    • [29].基于校企合作的《网页设计》课程教学改革研究[J]. 科技创新导报 2019(31)
    • [30].计算机网页设计中的布局与排版[J]. 信息与电脑(理论版) 2020(09)

    标签:;  ;  ;  

    基于向量空间模型的网页过滤研究
    下载Doc文档

    猜你喜欢