网络信息采集处理平台的研究

网络信息采集处理平台的研究

论文摘要

摘要:随着社会信息化的迅猛发展,网络已经成为人们获取信息的重要来源。而网络信息具有海量,复杂,非结构化等特点,为网络信息的获取以及基于网络信息搜集的分析与研究工作都带来了很大困难。网络信息采集处理平台整合了网络信息获取及处理中的各项关键技术,实现了将复杂、非结构化的网络信息进行整理以及结构化存储的功能。本文综合介绍了B/S架构的网络信息采集处理平台设计,构建与实现技术,合理地设计了一整套具有创新性的用于信息采集和信息处理的技术方案。系统描述了方案中的各实现环节,具有针对性地解决了网络信息采集处理平台中的由网络信息数据特性所带来的难题。本文的主要创新点及研究工作包括:一、将网页URL分析和匹配技术引入网络信息处理设计方案中,在基于网页解析模板进行网页解析及网页信息抽取时,用于辅助网页筛选、网站识别、解析模板选择和网页之间联系的发掘,优化了网络信息处理模块设计,改善了信息处理效率和准确度;二、创新性地提出了基于哈希函数的“抽象特征码比较法”,用于识别重复网络信息数据,避免由页面二次解析带来的重复数据存入数据库,通过相关实验及实验结果分析,验证了该方法对于海量网络信息数据存储效率有较大程度优化。三、在对Nutch爬虫系统进行深入研究的基础上,改进Nutch爬虫系统,进行多线程封装和配置接口设计,实现了分布,可灵活配置的信息采集模块。基于以上研究成果,本文规划了网络信息采集处理平台的总体框架结构,设计了系统功能模块逻辑,数据库结构和用户界面;应用新型GWT(Google WebToolkit)工具开发了交互性良好的用户界面;引入多线程技术对平台的信息处理效率进行优化,并通过相关实验加以验证。最终实现了一套运行稳定,效率优良的网络信息采集处理平台。

论文目录

  • 致谢
  • 中文摘要
  • ABSTRACT
  • 1 引言
  • 1.1 网络信息采集处理平台研究背景及意义
  • 1.2 网络信息采集处理平台国内外研究现状
  • 1.3 论文结构和完成的工作
  • 2 相关技术介绍
  • 2.1 网络爬虫技术介绍
  • 2.1.1 通用爬虫与聚焦爬虫
  • 2.1.2 Nutch中的爬虫
  • 2.2 B/S网络应用信息系统结构
  • 2.2.1 传统C/S软件架构及其缺陷
  • 2.2.2 B/S网络应用框架及其优点
  • 2.3 AJAX与Google Web Toolkit(GWT)技术介绍
  • 2.3.1 Ajax与Ajax开发技术介绍
  • 2.3.2 Google Web Toolkit(GWT)
  • 2.4 本章小结
  • 3 网络信息采集处理平台功能介绍及设计
  • 3.1 平台功能介绍
  • 3.1.1 网络信息采集功能介绍
  • 3.1.2 网络信息处理功能介绍
  • 3.2 系统设计
  • 3.2.1 系统总体设计与模块划分
  • 3.2.2 系统逻辑设计
  • 3.2.3 系统数据库设计
  • 3.2.4 系统界面设计
  • 3.3 本章小结
  • 4 网络信息采集处理平台中的关键技术及实现
  • 4.1 基于Nutch的改进网络爬虫设计及其实现
  • 4.2 网页信息抽取技术及其实现
  • 4.2.1 网页信息抽取技术概述
  • 4.2.2 URL分析技术在网页信息抽取中的应用
  • 4.2.3 基于模板的网页信息抽取技术的实现
  • 4.2.4 网页信息处理模块程序的实现
  • 4.3 基于GWT的Web系统开发技术及实现
  • 4.3.1 基于GWT与GWT-EXT的客户端Web程序构建
  • 4.3.2 远程过程调用(RPC)的实现
  • 4.4 海量网络信息数据存取优化技术
  • 4.4.1 网络信息采集处理平台数据要求
  • 4.4.2 基于哈希函数的"抽象特征码比较法"对数据存取的优化
  • 4.4.3 优化效果实验及结果分析
  • 4.5 基于多线程的系统效率优化
  • 4.5.1 Java多线程
  • 4.5.2 系统单线程存在的效率问题
  • 4.5.3 系统多线程优化方案
  • 4.5.4 多线程优化效果实验及结果分析
  • 4.6 本章小结
  • 5 结论及展望
  • 5.1 结论
  • 5.2 展望
  • 参考文献
  • 作者简历
  • 学位论文数据集
  • 相关论文文献

    • [1].敬告作者[J]. 马克思主义研究 2017(12)
    • [2].一种便携式监测测向设备数字处理平台方案设计[J]. 西部广播电视 2015(19)
    • [3].基于以太网的信号处理平台动态重构设计[J]. 电子技术应用 2020(08)
    • [4].离校个人物品处理平台[J]. 科技经济导刊 2020(11)
    • [5].高速公路紧急事件智能处理平台的应用[J]. 公路交通科技(应用技术版) 2018(12)
    • [6].《资源环境与工程》编辑部一新的期刊稿件远程处理平台正式上线[J]. 资源环境与工程 2019(02)
    • [7].一种航电任务一体化综合处理平台设计与实现[J]. 电脑知识与技术 2017(19)
    • [8].基于大数据的交通处理平台的分析与应用[J]. 佳木斯大学学报(自然科学版) 2019(01)
    • [9].基于大数据的情报信息自动处理平台[J]. 新型工业化 2019(04)
    • [10].基于VPX的3U信号处理平台的设计[J]. 中国科技信息 2013(12)
    • [11].新一代Myriad多媒体处理平台[J]. 军民两用技术与产品 2010(02)
    • [12].分布式业务处理平台设计[J]. 网络安全和信息化 2020(03)
    • [13].全自动样品前处理平台及其控制系统[J]. 湖北工业大学学报 2020(04)
    • [14].综合化核心处理平台智能电源管理技术[J]. 信息通信 2017(04)
    • [15].多媒体统一处理平台产品化定制的设计与实现[J]. 计算机系统应用 2010(05)
    • [16].浅谈手机工单处理平台在客服工作中的应用[J]. 有线电视技术 2013(11)
    • [17].机载核心处理平台电源管理系统[J]. 电光与控制 2014(11)
    • [18].基于龙芯3A的信号处理平台的设计与实现[J]. 哈尔滨师范大学自然科学学报 2012(01)
    • [19].机载航电综合处理平台综合化测试技术[J]. 电子测试 2020(06)
    • [20].综合化核心处理平台关键技术研究与实现[J]. 工业控制计算机 2015(12)
    • [21].基于嵌入式处理平台的AGC设计与实现[J]. 通信技术 2018(11)
    • [22].面向交通大数据的智能处理平台建设研究[J]. 计算技术与自动化 2017(03)
    • [23].MES系统运行报警及处理平台建设[J]. 计算机与应用化学 2010(08)
    • [24].用于通用处理平台的FPGA模块的远程调试与更新设计[J]. 舰船电子对抗 2020(04)
    • [25].数字核信号处理平台设计[J]. 核电子学与探测技术 2019(03)
    • [26].高通用可扩展分布式实时信令事件处理平台设计浅析[J]. 九江学院学报(自然科学版) 2019(03)
    • [27].基于移动互联的信息化智能处理平台设计[J]. 现代电子技术 2017(20)
    • [28].基于CPCI标准的6U信号处理平台的设计[J]. 中国科技信息 2014(08)
    • [29].虚拟仪器和混合编程用于快速构建信号处理平台[J]. 现代电子技术 2010(09)
    • [30].基于网络交换结构的多DSP综合处理平台[J]. 电子测量与仪器学报 2008(03)

    标签:;  ;  ;  ;  

    网络信息采集处理平台的研究
    下载Doc文档

    猜你喜欢