互联网上信息爆炸,如何快速检索需要信息以及更有效的利用这些信息,成为亟待解决的问题。本文介绍了信息集成系统WS-IIS,该系统整合各种异质的数据源以及Web服务,其中就包含Web数据源。作为WS-IIS一个辅助部分,Web信息抽取子系统提供将Web网站提供的信息封装为Web服务,供信息集成系统使用。本文研究的内容包括Web信息抽取规则和抽取流程两部分。Web页面一般是HTML语言描述的,着重于数据的呈现,而不是数据的描述。信息集成系统没有办法直接利用这些页面上的信息,所以需要Wrapper包装器程序将这些页面抽取至目标模式。Wrapper的核心是抽取规则。本文提出的基于DOM的信息抽取方法,提出用标准的XML技术操纵Web页面,将数据提取出来。抽取试验证明了这种抽取方法的可行性。抽取规则只解决了从Web页面抽取出数据至目标模式的问题,然而在互联网环境下,Web信息集成面临许多新的挑战。本文提出了信息抽取流程和基于流程的信息抽取框架。XML描述的抽取流程取代了传统的特定程序语言设计的Wrapper,抽取过程的执行由流程执行引擎完成。在此基础上,信息抽取框架实现了Web服务动态封装,将抽取过程封装为独立的Web服务供信息集成系统使用。
本文来源: https://www.lw50.cn/article/380d1c44c09125c200cdebb0.html