随着数字技术的飞速发展,数据量不断激增,导致海量数据的出现。然而这些浩繁的数据背后蕴藏着许多重要的信息,因此人们希望能够对其进行统计分析,以便更加方便地利用这些数据完成诸如天气预报、专家诊断等工作。数据分类由此应运而生。朴素贝叶斯算法是一种普遍应用的经典数据分类算法。该算法基于属性间独立性假设,即样本空间中元素之间的属性相互独立,以及贝叶斯后验概率定理。朴素贝叶斯算法的显著优点是相对于其它分类方法,朴素贝叶斯分类算法不需要搜索,只需简单地计算训练样本中各个属性值发生的概率,以此可以估计出每个属性的概率估计值,因而朴素贝叶斯分类算法的效率较高。但是,朴素贝叶斯算法同时也存在一些问题:其一,朴素贝叶斯算法不具有增量分类能力;其二,当大量样本需要分类时,计算比较复杂,没有充分利用分类信息;其三,该算法没有充分利用一次分类后遗留的分类信息。针对上述三方面问题,本文提出了一种基于小生境遗传算法的增量贝叶斯算法,同时引入向量空间概念,根据向量空间将样本量化,并应用小生境遗传算法在向量空间局部抽取出特征向量,作为不同类别的增量分类标准,进而简化了分类的计算量,提高了算法的分类精度。在使该算法具有增量分类能力的同时,在充分利用样本分类后产生的类别信息基础上降低了系统的时空开销。最后采用UCI数据集进行本算法的验证实验,实验表明基于小生境遗传算法的增量贝叶斯算法在一定程度上降低了时空复杂度并且具有了增量能力。
本文来源: https://www.lw50.cn/article/7cb566a1d5953b5678091b19.html