基于情报研究室工作的中医药竞争情报监测和采集系统探讨

基于情报研究室工作的中医药竞争情报监测和采集系统探讨

论文摘要

竞争情报是近年来广泛应用于经济金融企业、信息科学和电子技术等商业活动领域,并快速向其他领域扩展的一种情报搜集分析方法,促进了所在领域的发展,获得显著的经济和社会效益,是情报研究的一个热点;西方医学的局限性逐渐被发现认识,国内外将中医药等传统补充替代医学作为未来医药发展的一个重要方面,借鉴其他的研究思路与方法,可促进中医药的发展创新;互联网成为学习、科研等人员获取信息的主要渠道,且中医药的信息网络获取方便,信息量大,但更新速度快,寿命短,如何高效、及时的获取并保存所需信息成为一个难题。本情报研究室主要负责中医药领域的情报收集分析工作,服务于领导及科研人员,对信息的需求量很大,因而特别重视对网络信息的收集和处理;网络信息更新快,寿命短暂,容易造成情报丢失,需要将有意义的信息及时的采集和保存,以便后期的分析研究。本研究的目的是借鉴竞争情报的理念优化中医药情报监测采集工作,引入自动化信息监测与信息采集技术,以便快捷的收集公开发布的中医药相关情报,并进行测试、运用,提高工作效率,以应对飞速增长的中医药及补充替代医学相关信息。通过对具有代表性的近五年《中医药国际参考》和《甲型H1N1流感信息专辑》的所收录情报进行采集源分析,总结近年人工收集情报的情报源,寻找规律,对未来其他国家和地区在传统医学和补充替代医学方面科研可能面临的激烈竞争,确定情报源采集网站,依托现有信息所的软硬件设施和网络设备管理人员,选择合适的情报采集方式方法技术,对相关网络资源进行监测和采集。1既往情报总结分析及未来情报需求预测1.1情报研究室近年情报需求总结本情报研究室情报工作涉及面较为宽广,近年出版编辑的主要有:中医药国际参考、应急反应及某些疫情发生发展的中医药治疗信息专辑(包括手足口病,蜱虫病,甲流等疾病)、中医药查新报告等,主要满足中医药工作者的情报需求。其中以《中医药国际参考》和《甲型H1N1流感信息专辑》所跨时间长,内容涉及范围广,最能代表本研究室的所需情报的主要来源。内刊《中医药国际参考》为月刊,内容主要为中医药国际新闻,涵盖中医药的国际资讯、科研、会议和其他补充替代医学的科研、发展现状情况等。2006-2010年度的《中医药国际参考》的文章均为本研究室工作人员人工浏览各网站网页所采集编辑,代表了目前国际中医药及其相关情报的主要来源,对其文章来源进行统计除去出访报告和工作简讯,共1450条,来自159个网站。分析发现中医药信息具有信息来源整体分布广泛,相对集中的特点,相对集中于:本情报研究室所翻译的外文文章、新华网、世界针灸学会联合会网站、中国中医药报、医药经济报、中国新闻网、大公报、联合日报等几个较大媒体;对其他媒体所发布的零星新闻,进行检索,发现各大新闻网站均有相关报道或转载;对近年来的内容进行大致浏览还发现中医药报道主要涉及香港、台湾地区和日本、韩国、新加坡、美国、欧洲及东南亚一些国家等,这与相关国家的科研和卫生经济发展水平相适应。应急反应信息专辑主要涵盖急性传染性疾病的发生、发展、演变及中医药防治信息,代表中医药对该疾病的预见和诊疗过程,对其收集整理有助于探索中医治疗优势疾病和新药开发。对《甲型H1N1流感信息专辑》进行统计分析,流行性传染性疾病的信息来源主要为:世界卫生组织网站、国家卫生部网站、国家疾控中心网站、新华网、路透社、共同社、中国中医药管理局及各地政府和卫生厅网站等。在工作中也出现了许多问题:情报越来越多,来源主要为中文网站,人力有限,尤其急性流行性传染性疾病,在获取情报的过程中,将大量的时间耗费在浏览网页,检索和保存所需信息上,对外文文献翻译和获取、分析能力依然不足。1.2未来情报需求预测随着西方医学局限性逐渐被认知,中医药等其他传统医学重新被重视,近年来得到很大发展,整个产业发展潜力巨大。未来可能和一些国家、地区和企业等在理论、科研、应用及传播方面存在着竞争,需要紧盯世界各大医学院校、医药企业及科研院所的补充替代医学研究、应用方向,为国内医药规划、科研、教育及国际化提供参考。1.2.1中医药情报需求分析情报采集以应用为主,对中医药情报需求的相关专业和人员会逐渐增多,未来较长时间内,仍以服务中医药专业人士、提供专业中医药情报信息为主,需要保证情报的可信度、实用性和准确性等。1.2.2中医药发展竞争对手分析中医药在国内的发展历史悠久,但现代化及推广程度尚不够,竞争对手主要为对传统医学和补充替代医学重视、研究及推广应用的国家,比如美国、英国、印度等英语国家,德国、法国等欧洲发达国家及韩国、日本、东南亚各国等亚洲、非洲具有传统医学的国家。情报采集重点为各国中医药及其他传统医学和补充替代医学的政策法规、科研、教育、应用等信息,对其进行搜集、整理、及时发布及分析预测,以便为国内中医药研究提供参考。2情报源及相关采集网站的确立中医药网络资源内容烦杂,表现形式多样,主要包括文本、图形、图像、音频、视频等,主要来源于中医药的管理、医疗、教育、科研、商业等机构。根据其内容质量的权威性、实用性、准确性、时效性、独特性、全面性等分为以下三类:2.1图书馆、政府(医药组织、院校)官方网站以提供翔实可靠的信息为主,包括图书馆书目书籍资料、政府机构发布的政策法规、院校团体发布的信息、研究机构的最新研究成果等。特点是可靠性高,内容权威,但时效性较差,一般为事件确立、事实认证清楚之后才发布。2.2各主流网站、医药报纸,期刊、公司网站及数据库资料包括综合门户网站,医学类门户网站发布的有关医学新闻、医药报纸的最新报道,公司企业发布的产品广告、发展战略、投资方向,学术类数据库、专利数据库等信息资源等。特点是可靠性较差,但时效性较强。2.3医药论坛博客,社交、私人网站等包括医学相关的个人博客信息,以及论坛、BBS、聊天室上传递的各种相关信息,社交网站的个人日记,发言帖等。时效性强,但多为个人观点,不能保证全面客观的描述事实或事件,可信度不高,需去伪存真。根据本研究室以往工作的总结及对未来情报的需求,加之中医药领域专业性强、分布相对广泛,因而主要选择前两类网站中的信息源进行采集,根据前五年所统计情况及未来中医药可能面临的竞争和情报需求情况,制定本研究室所需要的竞争情报源采集网站。3采集工具的选择及应用3.1采集方法分析目前世界上对网络信息的采集方法主要是人工采集、网站抓取以及定制信息等。过去情报研究室采用传统的人工方法,程序复杂、烦琐,不但花费大量的时间,而且容易出现差错,已经不能适应未来中医药信息的采集和整理。根据对采集方法的分析,网站抓取具有以下特点:(1)采集预警机制:监测互联网相关网站、采集所需信息,并及时呈现给相关工作人员。(2)自动化:自动采集信息,能够整合自有和外部网络资源,节省人力及时间。(3)自主化:使用者据有控制、使用、改进的权利及能够保证长期使用。本所服务器工作稳定,配套设施完备,且系统管理员对服务器的管理运行具有丰富的经验,能够保障断电、断网等紧急情况下服务器的软硬件安全,可以为硬件设备的运行和故障排除提供及时有力的帮助。网站抓取软件能够依托信息所软硬件设施,能够方便、快捷的对采集源网站中医药信息的采集。因此选择网络信息采集软件对采集源网站进行采集。3.2软件的选择通过以上分析、实地考察、试用,决定采用基于Windows Server 2003操作系统,net 3.5 spl版本开发的情报采集及预警软件,能够很好的兼容本信息研究所的windows服务器,用户界面易于操作,采集类型广泛,不占用太多网络带宽,可为后续开发利用相关分析软件及网页发布系统。3.3采集流程根据确立的采集源网站确立采集任务,应用计算机智能化技术,将采集任务群自动分配采集站点群,针对不同目标数据源,进行不同的采集技术和方法配置,确立取舍规则,以保证采集数据的完整和干净,对多个目标数据源供采集,将采集的数据结果,处理入库。3.4网络信息监测、采集技术3.4.1多线程浏览、搜索、下载技术线程是在同一时间需要完成多项任务的时候被实现的。多线程是为了使得多个线程并行的工作以完成多项任务,以提高系统的效率将软件对每个采集任务可分配的线程数为1-10,充分利用内存和CPU,对所需信息的采集速度进行调整。3.4.2节点树深度优先搜索、广度优先搜索技术应用节点树深度优先搜索、节点树广度优先搜索技术可实时全面监测跟踪采集源网站的动向信息,及时采集。3.4.3更新触发监测技术更新触发通过对采集源网站的数据库中的相关内容实现级联更改,保证本地服务器文档与采集源网站文件发布保持同步,及时轻松获得情报信息,监测最新中医药情报,而且可减少搜索和采集程序对服务器资源和网络带宽的占用。3.4.4自动去重技术通过对URL链和指定页面的位置、时间、内容、等条件的智能化信息分析,对相同内容信息只下载一次,自动摒弃后面的文件,有效防止信息内容的重复情况。3.4.5断点续传技术指下载文件时,将采集源网站的采集任务(一个文件或一个压缩包)划分为几个部分,每一个部分采用一个线程进行下载,如果碰到网络故障,可以从已经下载的部分开始继续下载以后未下载的部分,而没有必要重头开始下载,节省时间,提高速度。3.5防屏蔽机制互联网中有很多我们所需要的信息,网站对服务器的采集和监控采取恶意屏蔽措施,使用各种手段限制采集行为。针对主要的防屏蔽技术我们采取对网站进行不规则的模拟型访问;使用随机代理服务器访问网站;url链接去重以避免陷阱环限制采集活动。且采用断点续传技术,在任务被终止时可以较为快速的启动,继续采集信息。3.6噪音过滤与移除计算机通过对网页内容的重复度计算,纳入高速去重,对网页内容中不可见噪音进行过滤和移除,自动下载有用信息,便于利用、分析。3.7情报的保存文件的保存考虑到存储时间长,空间足够大,方便后期的处理、利用和防泄漏。因此软件将所采集文档信息均自动以所采集信息的文章标题为文件名,以html格式保存在本地服务器存储空间上,可以方便查看、随时调用及删除和发布。本情报研究室的其他格式信息可以方便的转换为html文件,保存在服务器上相关的文件夹里,可以方便地实现整体调阅、数据挖掘等后期文档处理。其他图片和音视频格式均保存为原网站格式。4软件采集测试选取具有代表性的世针联网站,对软件的采集步骤进行展示(图示在全文),对其工作动态文件进行采集,人工查看为294篇目。设置好软件后,开启服务器自动采集,线程为10,反应间隔为零。一周之后源网站新增篇目0篇,服务器采集结果显示294条目,和原网站显示篇目数相同,对比标题,完全一致,为完全采集;对所采集内容对比,段落一致,源网站文字字体样式丢失,但所采集内容全,未见缺失,噪音较少,达到预期目标,着手批量添加其他采集任务。5结论与展望本文确定了中医药竞争情报的采集源网站,采用了最新的先进技术对中医药竞争情报监测和采集,提高了整个中医药行业的中医药竞争情报监测和采集水平。本文尚需综合情报分析和利用技术,优化扩展系统功能,加强系统推广应用,促进中医药产业迅速、健康发展。

论文目录

  • 中文摘要
  • Abstract
  • 国内外竞争情报研究及在医药领域中的应用概述
  • 1 一般情况
  • 2 竞争情报研究方法
  • 3 应用研究
  • 4 医药领域的应用
  • 前言
  • 基于情报研究室工作的中医药竞争情报监测和采集系统探讨
  • 1 既往情报工作的总结分析及未来情报需求预测
  • 1.1 情报研究室近年情报的需求总结
  • 1.2 未来情报室工作重点
  • 1.2.1 竞争环境分析
  • 1.2.2 中医药发展竞争对手分析
  • 1.2.3 竞争策略选择
  • 1.2.4 竞争情报采集内容
  • 2 竞争情报源及相关采集网站的确立
  • 2.1 图书馆、政府(医药组织、院校)官方网站
  • 2.2 各主流网站、医药报纸,期刊、公司网站及数据库资料
  • 2.3 医药论坛博客,社交、私人网站等
  • 3 采集工具的选择及应用
  • 3.1 采集方法分析
  • 3.2 软件的选择
  • 3.3 采集流程
  • 3.4 网络信息监测、采集技术
  • 3.4.1 多线程技术
  • 3.4.2 节点树深度优先搜索、广度优先搜索技术
  • 3.4.3 更新触发监测技术
  • 3.4.4 自动去重技术
  • 3.4.5 断点续传技术
  • 3.5 防屏蔽机制
  • 3.6 噪音过滤与移除
  • 3.7 情报的保存
  • 4 软件采集测试
  • 4.1 采集步骤测试
  • 4.2 采集结果测试
  • 5 结论与展望
  • 参考文献
  • 致谢
  • 附件
  • 相关论文文献

    标签:;  ;  ;  ;  ;  

    基于情报研究室工作的中医药竞争情报监测和采集系统探讨
    下载Doc文档

    猜你喜欢