基于垂直搜索技术的网站分析系统的研究与实现

基于垂直搜索技术的网站分析系统的研究与实现

论文摘要

在当今的经济、社会生活的各个领域中,互联网的应用正变得越来越广泛。在互联网经济迅猛发展的同时,由网站违规运营造成的问题也呈逐年上升趋势。虽然信息产业部通过ICP/IP地址/域名信息备案管理系统实现了对网站的备案和简单管理,但是在现有的技术手段下,无法及时发现未备案网站并有效地监督和管理接入网站的规范运营情况,这为新时期的互联网管理工作提出了新的要求。本课题在对网站监管现状作了深入而细致的调查研究之后,提出通过搜集DNS解析日志和网络运营商的互联网IP地址段,与信息产业部网站备案系统数据交叉比对,然后结合垂直搜索的核心技术——信息采集技术和自然语言解析技术等,实现对全省网站的备案情况进行统计和管理,对全省网站数据的动态实时扫描、监控和深度挖掘,增强互联网管理的主动性和时效性,提高面对各类新的反监管手段的应变能力。本文首先介绍了垂直搜索及其相关技术,在此基础上提出和设计了基于垂直搜索技术的网站分析系统的整体框架和技术路线,然后介绍了网站分析系统各子系统的详细设计。论文主体部分着重研究和实现了垂直搜索引擎的两个核心部分:网络蜘蛛和中文分词。其中网络蜘蛛融合了数据库队列、多进程和多线程以及网页元素步进解析算法等技术;中文分词部分采用了机械分词与统计分词相结合的方法,使用含有词语优先级的统计分词词典计算分词最短路径,以获取最优切分结果。经过初步测试,垂直搜索引擎在性能和准确率方面都能满足网站分析系统的性能需求。本文最后从计算机网络、灾难备份、访问控制、管理机制等几个方面介绍了系统的整体安全防护设计。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 研究背景和意义
  • 1.1.1 我国互联网的高速发展
  • 1.1.2 互联网监管的意义
  • 1.1.3 我国互联网监管的现状
  • 1.1.4 选题依据和意义
  • 1.2 研究目标和内容
  • 1.2.1 研究目标
  • 1.2.2 研究内容以及本文作者所承担的工作
  • 1.2.3 课题成果与创新性说明
  • 1.3 论文结构
  • 第2章 垂直搜索及其相关技术
  • 2.1 通用搜索
  • 2.1.1 通用搜索的发展史
  • 2.1.2 通用搜索体系结构
  • 2.1.3 通用搜索的发展现状及其局限性
  • 2.2 垂直搜索
  • 2.2.1 垂直网站与垂直搜索
  • 2.2.2 垂直搜索体系结构
  • 2.2.3 垂直搜索的研究现状和发展方向
  • 2.3 垂直搜索的核心技术
  • 2.3.1 信息采集技术
  • 2.3.2 结构化信息抽取技术
  • 2.3.3 自然语言解析技术
  • 2.4 本章小结
  • 第3章 网站分析系统总体设计
  • 3.1 网站分析系统整体框架设计
  • 3.2 网站分析系统技术路线设计
  • 3.2.1 系统探测分析的目标网站
  • 3.2.2 网站分析系统核心技术
  • 3.2.3 电子期刊
  • 3.2.4 自动报表管理
  • 3.2.5 黑名单网站的管理
  • 3.2.6 预警监控
  • 3.2.7 信息跟踪与传递分析
  • 3.3 网站分析系统性能需求分析
  • 3.4 网站分析系统服务器环境设计
  • 3.4.1 多服务器负载均衡处理
  • 3.4.2 数据库服务器的群集技术
  • 3.5 网站分析系统外部访问接口设计
  • 3.6 本章小结
  • 第4章 网站分析系统详细设计与部分实现
  • 4.1 开发及运行环境
  • 4.2 网站分析系统的子系统及用户界面设计
  • 4.2.1 备案查询子系统
  • 4.2.2 综合查询子系统
  • 4.2.3 数据统计子系统
  • 4.2.4 分类查询子系统
  • 4.2.5 网站黑名单管理子系统
  • 4.2.6 接入商IP地址管理子系统
  • 4.2.7 内容监控子系统
  • 4.2.8 信息发布子系统
  • 4.2.9 用户管理子系统
  • 4.3 本章小结
  • 第5章 内容监控子系统关键技术研究与实现
  • 5.1 网络蜘蛛
  • 5.1.1 URL遍历
  • 5.1.2 URL维护队列
  • 5.1.3 网络蜘蛛程序流程
  • 5.1.4 网络蜘蛛程序实现
  • 5.1.5 网络蜘蛛性能测试
  • 5.2 中文分词
  • 5.2.1 中文分词的结构设计
  • 5.2.2 分词词典机制
  • 5.2.3 最短路径问题及其求解算法
  • 5.2.4 未登录词识别
  • 5.2.5 中文分词性能测试
  • 5.3 本章小结
  • 第6章 网站分析系统安全防护
  • 6.1 网络安全
  • 6.1.1 局域网安全
  • 6.1.2 广域网安全
  • 6.1.3 外部网安全
  • 6.2 数据灾难备份
  • 6.2.1 灾备等级
  • 6.2.2 数据同步
  • 6.2.3 业务接管
  • 6.2.4 数据恢复
  • 6.3 安全访问控制
  • 6.3.1 基于角色的访问控制
  • 6.3.2 访问控制列表
  • 6.4 安全管理机制
  • 6.4.1 信息安全的组织结构
  • 6.4.2 信息安全岗位
  • 6.4.3 信息安全管理制度
  • 6.5 网站分析系统安全设计
  • 6.6 本章小结
  • 第7章 总结与展望
  • 7.1 本文总结
  • 7.2 工作展望
  • 致谢
  • 参考文献
  • 攻读学位期间发表的论文
  • 相关论文文献

    • [1].民间反腐网站,能否给力反腐?[J]. 党的生活(黑龙江) 2011(08)
    • [2].《中国实用内科杂志》编辑部关于杜绝不法网站欺骗作者的严正声明[J]. 中国实用内科杂志 2019(12)
    • [3].《中国实用妇科与产科杂志》编辑部关于杜绝不法网站欺骗作者的严正声明[J]. 中国实用妇科与产科杂志 2020(03)
    • [4].《中国实用内科杂志》编辑部关于杜绝不法网站欺骗作者的严正声明[J]. 中国实用内科杂志 2020(02)
    • [5].大数据时代地市级新闻网站的应对策略[J]. 新闻战线 2019(22)
    • [6].大数据时代地市级新闻网站进路探析[J]. 青年记者 2020(05)
    • [7].《中国实用内科杂志》编辑部关于杜绝不法网站欺骗作者的严正声明[J]. 中国实用内科杂志 2020(03)
    • [8].网信系统一季度约谈网站1143家 暂停更新网站117家[J]. 新闻世界 2020(05)
    • [9].不良网站监测全流程闭环体系应用[J]. 山东通信技术 2020(01)
    • [10].陕西省政府网站互动交流发展现状研究[J]. 信息技术与信息化 2020(04)
    • [11].浅谈网站的安全与防护[J]. 江苏航空 2020(02)
    • [12].《中国实用内科杂志》编辑部关于杜绝不法网站欺骗作者的严正声明[J]. 中国实用内科杂志 2020(07)
    • [13].《中国实用内科杂志》编辑部关于杜绝不法网站欺骗作者的严正声明[J]. 中国实用内科杂志 2020(06)
    • [14].村田推出新网站鼓励科技创新[J]. 中国自动识别技术 2020(03)
    • [15].深度分析电商网站产品页设计[J]. 电子商务 2020(07)
    • [16].基于网站特征视角分析患者在线择医意愿[J]. 医学信息学杂志 2020(04)
    • [17].视听网站数据库的构建及巡检技术方案[J]. 广播与电视技术 2020(06)
    • [18].试析人工智能时代重点新闻网站的发展思路[J]. 北方传媒研究 2020(03)
    • [19].《中国实用妇科与产科杂志》编辑部关于杜绝不法网站欺骗作者的严正声明[J]. 中国实用妇科与产科杂志 2020(09)
    • [20].中国省级教育信息综合网站月度排行榜[J]. 中国教育信息化 2020(15)
    • [21].《中国实用妇科与产科杂志》编辑部关于杜绝不法网站欺骗作者的严正声明[J]. 中国实用妇科与产科杂志 2020(10)
    • [22].12306大改版 铁路购票网站体验[J]. 计算机与网络 2018(22)
    • [23].关于某些网站假冒我刊非法征稿的声明[J]. 中国应用生理学杂志 2018(05)
    • [24].关于某些网站假冒我刊非法征稿的声明[J]. 中国应用生理学杂志 2018(06)
    • [25].《中国实用妇科与产科杂志》编辑部关于杜绝不法网站欺骗作者的严正声明[J]. 中国实用妇科与产科杂志 2019(06)
    • [26].《中国实用妇科与产科杂志》编辑部关于杜绝不法网站欺骗作者的严正声明[J]. 中国实用妇科与产科杂志 2019(07)
    • [27].《中国实用妇科与产科杂志》编辑部关于杜绝不法网站欺骗作者的严正声明[J]. 中国实用妇科与产科杂志 2019(09)
    • [28].一个“论坛”式桥网站的研究与实现[J]. 电脑知识与技术 2019(19)
    • [29].《中国实用妇科与产科杂志》编辑部关于杜绝不法网站欺骗作者的严正声明[J]. 中国实用妇科与产科杂志 2019(11)
    • [30].《中国实用妇科与产科杂志》编辑部关于杜绝不法网站欺骗作者的严正声明[J]. 中国实用妇科与产科杂志 2019(12)

    标签:;  ;  ;  ;  ;  

    基于垂直搜索技术的网站分析系统的研究与实现
    下载Doc文档

    猜你喜欢