Mining Shared KnowledgePatterns between Two Datasets

Mining Shared KnowledgePatterns between Two Datasets

论文摘要

在数据挖掘中,如何描迷数据集之向的差异性是一令重要的向题。在模式挖掘中,广泛应用决策树方法来解抉这今向题。决策树是一今很好的数据挖掘模型,非常适合作为分类器。然而,目前决策树研究方面很少涉及两今不同数据集之同的分炎相似性,即挖掘两今数据集的共享模式。这里,我们学刁挖掘两今数据集之同的共享模式。我们研究一种特殊的共享模式—数据分布相似性。为了从两今数据集中挖掘一令高盾量的共享二叉树,我们提出了一今综合利用共享模式、分类、二叉树结构的共享二叉树挖掘算法——MiningSBT。为了高效的从数据集D1和数据集D2中挖掘出共享二叉树,我们假设D1是已知数据集,记为UD1,D2是未知数据集,记为ND2。通迂运行我们的算法UD1可以帮助我们理解ND2,这是因为共享二叉树的结果满足以下两点:高数据分布相似性和高分类准硬度。我们的共享二叉树算法不同于传统的决策树算法,这是因为我们的挖掘讨象是两今数据集、数据分布相似性要求和准确度要求。安验结果证明我们的算法是有效的。数据库和数据挖掘概述:粗略地并一个数据库,是一今有组织的数据收集,为一今或多今目的,通常以数字形式。通常组织的数据建模相关的现实问题(例如在一所学校,学生的成绩情况而定),在某种程度上支持需要这些信息(例如,找到一个给定的学生的年级)的迸程。术语数据库,可能是指一个特定的方面,如逻辑数据库的数据有组组的收集,数据内容物理数据库在计算机数据存储或许多其他数据库定义。术语数据库正确地应用于数据和其支持的数据结构和不是数据库管理系统(DBMS)。匀DBMS的数据库中的数据的集合称为一个数据库系统。数据库,基本上是电脑化的资料保存系统。资料库本身可视为电子化的档案柜—储存电脑化档案的处所,使用者可以新增档案或删除档案,也可以对档案中的资料执行新增、撷取、更新、删除等操作。数锯库是以一定组纸方式储存在一起的,能为多今用户共享的,具有耳可能小的冗余度的、匀底用彼此狭立的相互失联的数锯集合。资料库的架构可以大致区分为三个概括层次:内层、概念层和外层。内层:最接近实际储存体,亦即有关资料的实际储存方式。外层:最接近使用者,即有关个别使用者观看资料的方式。概念层:介於两者之间的间接层。资料库管理系统(英语:Database Management System,简称DBMS)是为管理资料库而设计的电脑软体系统,一般具有储存、撷取、安全保障、备份等基础功能。资料库管理系统可以依据它所支援的资料库模型来作分类,例如关联式、XML;或依据所支援的电脑类型来作分类,例如伺服器群集、行动电话;或依据所用查询语言来作分类,例如SQL;或依据性能衡量重点来作分类,例如最大规模、最高执行速度;亦或其他的分类方式。不论使用哪种分类方式,一些常用的DBMS还是会跨类别。例如,同时支援多种查询语言。比较通行的DBMS有MySQL、PostgreSQL、Microsoft Access、SQL Server、 Oracle。几乎所有的资料库管理系统都配备了一个开放式资料库连接(ODBC)驱动程式,令各个资料库之问得以互相整合。数据库技木是研究如何科学地姐织和储存数据,如何高效地检索数据和进行数据效理的技术。数锯库存在多神模型。而应用于大型数锯储存的数锯库一般为网状模型、关联式模型以及物件模型。此外也有应用在LDAP (轻量级数锯访向协谈)的阶层式模型。平面模型(表格模型)一般在形式上是一今二维阵列。一般来并,数组中每列表示一今数锯炎型,数锯在其中驮不同行的形式存储。表格模型数锯库是电子试算表(比如Excel)的基础。资料索引的观念由来已久,像是一本书前面几页都有目录,目录也算是索引的一种,只是它的分类较广,例如车牌、身份证字号、条码等,都是一个索引的号码,当我们看到号码时,可么从号码中看出其中的端倪,若是要找的人、车或物品,也只要提供相关的号码,即可迅速查到正确的人事物。另外,索引跟栏位有著相应的关系,索引即是由栏位而来,其中栏位有所谓的关键栏位(Key Field),该栏位具有唯一性,即其值不可重复,且不可为”空值(null)"。例如:在合并资料時,索引便是扮演欲附加欄位资料之指向性用途的角色。故此索引为不可重复性且不可为空。一般目的的DBMS一个DBMS已经演变成一个复杂的软件系统和它的发展通常需要数千人年的发展努力。一些通用的DBMS,像甲骨文,微软SQL服务器和IBMDB2,已经历30年或更长时间的升级。通用数据库管理系统的目标,以满足尽可能多的应用,这通常使得他们更加复杂比专用数据库。然而,其实,他们可以用“关闭的架子”,以及他们对许多应用和实例的摊销成本,使他们有吸引力的替代时,他们满足应用的要求。涉案人员的类型,三种类型的人都参与了通用DBMS1。数据库开发-这是人们设计和建造的DBMS产品,只有那些触及它的代码。他们是典型的DBMS供应商(如Oracle, IBM,微软,Sybase)的员工,或者,在开源的DBMS的情况下(例如,MySQL的),志愿者或人感兴趣的公司和组织的支持。他们通常是熟练的系统程序员。DBMS的开发是一项复杂的任务,和一些流行的DBMS已根据几十年的发展和加强(也跟随技术进步)。2。应用程序开发人员和数据库管理员-这些都是人民的,设计和建立基于数据库的应用程序使用的数据库管理系统。后者组成员设计所需要的数据库,并保持它。第一组成员撰写所需的应用程序,应用程序包括。无论是DBMS产品的熟悉和使用它的用户界面(以及其他工具通常)为他们的工作。有时应用程序本身的包装和销售作为一个单独的产品,其中可能包括数据库内(见嵌入式数据库,以适当的DBMS牌),或单独销售一个附加到DBMS。3。应用程序的最终用户(例如,会计师,保险人,医生等)-这些人都知道的应用和它的最终用户界面,但不需要知道也不了解底层的DBMS。因此,尽管它们是DBMS的目标和主要受益者,他们只能间接参与。数据挖掘是在数据库知识发现过程的分析步骤),相对年轻的和跨学科领域的计算机科学是发现大量数据的新模式的过程中设置涉及人工智能路口的方法,机器学习,统计和数据库系统。数据挖掘的目标是从设置在人类理解的结构,包括数据库和数据管理,数据预处理,模式和推理考虑,趣味性度量,复杂性的考虑,对发现的结构,可视化后处理和在线数据提取知识更新。一词是一个时髦词,经常被误用,是指任何形式的大规模数据或信息处理(收集,提取,仓储,分析和统计),而且还推广到任何类型的计算机决策支持系统,包括人工智能,机器学习和商业情报。在这个词的正确使用,关键术语是发现,俗称“发现新的东西”的定义。实际数据挖掘的任务是分析大量数据的自动或半自动提取以前未知的有趣的图案,如数据记录组(聚类分析),不寻常的记录(异常检测)和依赖(关联规则挖掘)。这通常涉及到使用数据库技术,如空间索引。这些模式可以被看作是一种输入数据的汇总,并在进一步的分析,或用于例如在机器学习和预测分析。例如,数据挖掘的步骤可能会找出多个组中的数据,然后可以使用,以获得更准确的决策支持系统的预测结果。数据库的研究一直是积极的和多样化的地区,与许多专业,处理与数据库的概念在20世纪60年代初期以来进行的。它拥有强大的关系数据库技术和DBMS产品。数据库研究组研究和开发公司已采取的地方(例如,特别是在IBM研究中心的技术和理念,谁贡献几乎任何现有的DBMS今天),科研院所和学术界。研究已经完成,通过理论和原型。研究和数据库相关的产品开发之间的互动一直非常富有成效的数据库领域,并从它出现的许多相关的关键概念和技术。值得注意的是关系和实体关系模型,原子事务的概念和相关的并发控制技术,查询语言和查询优化方法,以及更多。数据库的几乎所有方面的研究提供了深刻的洞察力,但并不总是一直务实,有效的(不能和不应该永远是:研究是探索性的,并不总是导致公认的或有用的想法)。最终,市场力量和实际需要确定问题解决方案及相关技术的选择,也通过研究提出的那些。但是,偶尔,而不是最好的,最优雅的解决方案,赢得(例如,SQL)。沿着历史的DBMS和各自的数据库,在很大程度上,已经这样的研究成果,而真正的产品的要求和挑战,引发了数据库的研究方向和子区域。数据库研究领域有几个显着的专用学术期刊(例如,数据库ACM交易系统TODS,数据和知识工程,DKE等)和年度会议(例如,ACM坦帕湾,ACM SIGMOD, VLDB, IEEE ICDE,多),以及活跃相当异构(明智主题)世界各地的研究团体。

论文目录

  • DEDICATION
  • ABSTRACT
  • 摘要
  • TABLE OF CONTENTS
  • LIST OF FIGURES
  • LIST OF TABLE
  • CHAPTER 1 INTRODUCTION
  • 1.1 Background of the study
  • 1.2 Research Objectives
  • 1.3 Example illustration of a shared patterns
  • 1.4 Thesis Overview
  • CHAPTER 2 LITERATURE REVIEW OF RELATED WORKS
  • 2.1 Preliminaries Concepts
  • 2.1.1 Classification algorithms
  • 2.1.2 Binary Tree
  • 2.1.2.1 Properties of binary trees
  • 2.1.3 Information Gain
  • 2.2 Summary
  • CHAPTER 3 METHODOLOGY OF THE SHARED PATTERNS MINER(MiningSBT)
  • 3.1 Problem
  • 3.1.1 Data Distribution Similarity
  • 3.1.1.1 Cross-Dataset Distribution Similarity of Tree
  • 3.1.2 Tree Accuracy
  • 3.1.3 Combining the factors to defme Tree Quality
  • 3.2 The Mining Algorithm
  • 3.3 Summary
  • CHAPTER 4 EXPERIMENTAL EVALUATION
  • 4.1 Experiments
  • 4.1.1 Real datasets
  • 4.1.2 Quality performance on real datasets
  • 4.1.2.1 Quality of Shared Binary Tree mined by MiningSBT
  • 4.1.2.2 Shared Binary Tree mined from different dataset pairs
  • 4.2 Discussion
  • 4.2.1 Existence of high quality Shared Binary Tree
  • 4.2.2 Class pairing
  • 4.2.3 Attributes used by trees
  • 4.3 Summary
  • CHAPTER 5 CONCLUSION AND FUTURE WORKS
  • 5.1 Conclusion
  • 5.2 Future Works
  • REFERENCES
  • ACKNOWLEDGEMENTS
  • 相关论文文献

    • [1].中小银行数据挖掘思路浅析[J]. 金融电子化 2020(05)
    • [2].浅析大数据挖掘中抽样估计法的应用[J]. 现代信息科技 2019(21)
    • [3].基于大数据挖掘的广播电视客户价值分析[J]. 科技视界 2019(34)
    • [4].基于深度学习的工业领域数据挖掘方法及应用[J]. 数字技术与应用 2019(11)
    • [5].基于大数据思维的财务数据挖掘及应用研究[J]. 国际商务财会 2019(11)
    • [6].第16届高级数据挖掘和应用国际会议[J]. 软件工程 2020(04)
    • [7].基于云计算的大数据挖掘体系构建分析[J]. 中外企业家 2020(11)
    • [8].测绘地理信息专业背景下的《时空数据挖掘》课程设计[J]. 南宁师范大学学报(自然科学版) 2020(01)
    • [9].智慧医疗下云数据挖掘在精细化医疗管理中的应用[J]. 中医药管理杂志 2020(03)
    • [10].高校管理人员教育数据挖掘能力培养的实践价值与实施路径[J]. 中国教育信息化 2020(07)
    • [11].大数据环境下的数据挖掘课程教学探索[J]. 中国新通信 2020(06)
    • [12].第16届高级数据挖掘和应用国际会议[J]. 软件工程 2020(05)
    • [13].基于云计算的大数据挖掘内涵及解决方案研究[J]. 数字通信世界 2020(03)
    • [14].基于可拓数据挖掘的建筑立面设计方法研究[J]. 科技传播 2020(08)
    • [15].数据挖掘实践教学环节探索[J]. 科技经济导刊 2020(11)
    • [16].大数据挖掘与云服务模式的构建[J]. 江西电力职业技术学院学报 2020(01)
    • [17].医疗云存储下医院信息数据挖掘及实现技术的探索[J]. 信息与电脑(理论版) 2020(05)
    • [18].高校治理视阈下教育数据挖掘的应用与挑战[J]. 高教论坛 2020(04)
    • [19].大数据挖掘与分析的关键技术研究[J]. 中国新通信 2020(08)
    • [20].浅析数据挖掘[J]. 内江科技 2020(06)
    • [21].教育数据挖掘关键技术应用研究[J]. 轻纺工业与技术 2020(06)
    • [22].物联网海上舰船航行数据挖掘方法[J]. 舰船科学技术 2020(12)
    • [23].云环境中大数据挖掘的有效花费研究[J]. 上海理工大学学报 2020(03)
    • [24].对《零售数据挖掘与应用》课程教学的思考[J]. 知识经济 2020(18)
    • [25].教育数据挖掘和学习分析研究进展[J]. 牡丹江师范学院学报(自然科学版) 2020(03)
    • [26].第16届高级数据挖掘和应用国际会议[J]. 软件工程 2020(08)
    • [27].电商市场中大数据挖掘的分析以及决策探究[J]. 中国新通信 2020(12)
    • [28].关于大数据挖掘中的数据分类算法技术的研究[J]. 电脑知识与技术 2020(20)
    • [29].长输油气管道大数据挖掘与应用[J]. 物联网学报 2020(03)
    • [30].数据挖掘实践课程教学模式的探索[J]. 教育教学论坛 2020(36)

    标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

    Mining Shared KnowledgePatterns between Two Datasets
    下载Doc文档

    猜你喜欢