新汶矿业集团有限责任公司翟镇煤矿
1现状分析
目前翟镇煤矿还没有建设统一的矿级数据仓库系统,业务系统的数据只是存放在各业务信息系统数据库中。数据彼此相互独立且缺乏关联一致性。
各个业务系统中相对独立的数据仅在本业务系统中,通过管理软件自带的简单报表分析工具,进行简单汇总分析能力。当需要同其他系统提供数据或使用其他系统的数据时,只能采取人工重复录入、定制开发接口等方式实现,没有标准统一的接口规范和规格。
2存在的问题分析
2.1业务系统做大数据分析的局限性
业务系统数据库的数据存储方式和数据表设计规范都是按照在线事务系统(OLTP)的方式,决定了其不适合作为数据分析应用。
并不是所有的业务系统都提供分析功能,一些老旧的业务系统并没有提供分析功能;单业务直接简单的报表统计和汇总分析汇集到矿领导时往往出现口径不一致、数据不匹配、展示不全面的现象。
按照在线业务系统数据存储和安全管理规定,以及其响应速度和效率的考虑,各业务系统的数据库存取效率较低,直接在各业务系统中进行数据抽取和分析将严重拖累业务系统运行效率。
跨系统的数据交换需要定制开发接口,往往造成一个系统需要开发多个接口为不同的系统提供相同的数据,造成维护工作量极大,而且系统一旦升级更新,所有接口必须全部重写。
3数据仓库建设目标及内容
3.1建设目标
数据仓库是一个数据决策和大数据分析的支撑环境,它通过从不同的业务信息系统中获取数据源的实时数据,将分散的业务数据进行组织,并集中存放在一个专业的数据仓库中,方便地从中进行信息查询、产生报表和进行数据分析等。数据仓库是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是出于分析性报告和决策支持目的而创建。为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。
3.2数据建设内容
本系统的主要建设内容如下:
确定数据仓库的存储机制、业务分析的数据模型,以及数据仓库与源数据库的映射关系等。数据仓库设计工作在全息矿井的建设中应最先开始,只有完成了数据仓库的设计,才能开始数据采集的调度设计;而且,业务功能分析应用的开发也能够同步进行。未来大数据分析的总体架构图
从图中可以看出,数据仓库是未来智慧化矿井大数据分析的基础,联系分析处理和数据挖掘是数据仓库上的两类不同目的的数据增值操作。联机分析(OLAP)工具是数据汇总/聚集工具,它提供切片、切块、下钻、上卷和旋转等数据分析操作,简化用户的数据分析工作。数据挖掘支持知识发现,包括找出隐藏的模式和关联,构造分析模型,进行分类和预测,并用可视化工具提供挖掘结果。数据分析工具和数据挖掘工具可以配合使用,由数据分析为数据挖掘提供预期的挖掘对象和目标,避免挖掘的盲目性。可以说,数据仓库、OLAP和数据挖掘技术是企业BI的三大支柱。
系统最左端为基础数据层,主要包括统一的基础业务系统平台和各种外部数据;数据抽取/转换/加载模块通过对基础数据层数据的抽取、净化和转换,形成的统一信息层--ODS(操作数据存储)层,在逻辑和存储上对业务处理系统与数据仓库进行隔离;
核心数据层为多维模型存储层,通过对ODS层数据的抽取、净化和转换而形成的按照多维模型进行存储的、综合了统计元素库、包括了从细节级、轻度综合、中度综合直至高度综合各级粒度的OLAP分析数据层,是按照主题分析的需要建立的企业级全局数据存储;在核心数据层之上通过联机分析(OLAP)和数据挖掘等的分析引擎,构建经营分析决策支持应用;
最右端为展现层,为按客户机、浏览器等各种接入方式的用户提供决策分析的结果。
通过矿级数据仓库的信息知识仓库和各个主题数据集市,将来可以利用大数据分析工具利用信息智能检索、非结构化信息分析、OLAP分析、数据挖掘以及即席报表的各项KPI指标进行综合分析,产生各项有意义领导决策和未来信息趋势预测等信息。
3.3数据仓库
建设数据仓库是一个长期的工程,如果在数据仓库规划之初实现所有业务的建模是相当难的,而且不易看到数据仓库的成果,用户在等待半年甚至更长时间仍然看不到提供给他们的信息,必定对项目的建设是个阻碍。因此,数据仓库设计建议采用结构化的、增量式的开发方法,也就是所谓总线架构模式。总线架构模式类似于硬件体现中的"总线"结构,当一个新的硬件接口卡设备投入使用时,只需要将接口卡插入总线插槽中即可。数据仓库总线架构也与之类似,如果系统定义好适合于集团的一致的维度,当新增加一个业务功能时,只需要按照维度标准设计"接口卡"即可。
3.3.1数据仓库建设体系架构图
具体的数据仓库体系建设图设计如下:
ODS临时存储区
分段存储区是为了保证数据转移的顺利进行而开设的阶段性数据存储空间,数据直接从业务系统快速转移至分段存储区,在这个传输过程中应尽量避免进行数据处理,以保证数据的快速导入,并尽量减小对业务系统造成的压力,不过多影响业务系统的运行。
需要从业务系统转移至分段存储区的主要是基本运营系统的数据,每天的转移数据量较大。对应于不同的运营系统,分段存储区的数据有数据表和文件二种保存方式。
明细层:DCC数据中心核心区/CDS整合数据存储区
DCC的数据来源于对分段存储区数据的抽取,其数据结构按照逐层分层组织及汇总的原则,依据业务逻辑与信息的本质进行组织与设计。基础数据仓库/分层汇总区将考虑以不同主要业务为中心建立由多组表组成的统一视图(Uniontable),同时根据信息的本质建立多个参照表(Referencetable)、关键字表(Keytable)、链接表(Linktable)与索引表(Indextable),从而保证数据支持的便捷、高效、适应变化性强,充分体现基准的必要,以便更好地适应将来业务发展、数据仓库的需要,满足各种应用服务。从分段存储区至基础数据仓库的数据转移是整个数据转移过程中最重要的部分,需要进行复杂的抽取、清洗、变换、一致化处理等操作,数据转移逻辑的依据是业务规则,而且会随着业务规则的变化发生修改和变化。
CDS的数据直接来源于对DCC数据的抽取,但数据结构完全按照数据仓库的需求而设计成星型结构(或雪花结构),在设计中兼顾系统未来的发展变化和数据查询、访问的效率。在抽取过程中,对数据进行了完整性和有效性检查,对冗余和不一致的数据进行了清洗和转换。基础数据仓库中的数据量将非常庞大。
数据集市
数据集市是数据仓库的子集,通常已经将详细数据聚合为汇总数据,其主要目的是支持各种不同的前端数据仓库应用和其他业务系统的信息需求。数据集市的数据通过对基础数据仓库中数据的复制、分布或聚合而得到,数据结构设计为星型结构,可以直接支持通过R-OLAP服务器的多维分析。
根据业务定义与业务需求的需要,将数据形成多个面向应用的"V-CUBE",存储在关系数据库中。
为了适应数据分析的要求,翟镇煤矿数据仓库系统建设的一条基本原则是"以数据为中心"。因为业务处理过程是随着市场和技术的变动而不断变动和增加的,而数据的角度看,一个职能域的全部数据是可以按业务主题来分类和组织的,而且可以得到稳定的数据结构。不论企业机构如何变动或信息系统环境如何变动,都可以做到数据结构稳定不变,即数据稳定性原理。
数据仓库就是面向主题的、集成的、稳定的、不同时间的数据集合,用以支持经营管理中的决策制定过程。
3.3.2数据来源分析
翟镇煤矿数据中心的数据仓库的数据主要来源如下:
集团ERP系统
综合自动化系统
设备管理信息系统
全面市场化管理系统
3DSY安全信息管理系统
水文地质地测系统
安全监督监测
人员定位系统
工业视频监控
……
3.3.3数据仓库主题设计
根据核心数据类别,结合翟镇煤矿实际情况,将主要的核心数据类别划分为以下九个主要的主题域:财务、采购、销售、库存、设备、人力资源、项目、生产、企业综合。
结语:通过数据库的建设,提供了搜索功能,对于特定的翟镇煤矿的发展起到一定的辅助作用。通过对数据库的检索,能方便快捷的获得所需要的信息,节约了时间与成本。更好地服务于煤矿的生产和安全
参考文献:
[1]王凯.基于SQLite的煤矿数据库管理系统的设计与开发[J].科技世界,2016(6):209.
[2]王伟.实时数据库系统推动煤矿信息化管理应用研究[J].煤炭经济研究,2015(10):77.
[3]刘毅.煤矿数据库信息化建设的问题探讨[J].煤炭技术,2013(12):225.