基于风险最小化的垃圾邮件过滤方法研究

基于风险最小化的垃圾邮件过滤方法研究

论文摘要

随着互联网技术的迅速发展和普及,电子邮件因其便捷和低成本等优点已经深入广大网络用户的生活。然而,电子邮件不仅给人们提供了便利,也给人们带来了侵扰——垃圾邮件的泛滥,严重污染了网络世界。寻找出一种有效的垃圾邮件过滤技术,成为了人们解决垃圾信息困扰的关键。在基于内容的邮件过滤技术中,贝叶斯和支持向量机邮件过滤技术借鉴了新兴的机器学习算法,在智能过滤效果上有突出的表现,得到了人们的广泛应用。本文主要研究工作包括:1、研究了在垃圾邮件过滤中文本的表示方法,本文利用Karp-Rabin算法构造散列函数收集文本指纹,通过指纹散列特征项表示文本。2、对特征选择方法进行研究,在贝叶斯和SVM过滤模型中分别利用基于类条件分布的特征选择算法和改进的互信息特征选择方法;考虑邮件与普通文本的不同,构造了邮件头和邮件体集成的加权模型。3、深入研究决策风险最小化贝叶斯分类算法和结构风险最小化支持向量机分类算法。我们分析合法邮件归类为垃圾邮件的损失要比垃圾邮件归类合法邮件的损失大得多,在两种分类算法中,分别引进代价因子和惩罚因子,实现了风险最小化的邮件过滤模型,并通过阈值调整优化了系统。4、实现并比较了基于最小风险的贝叶斯算法邮件过滤系统和基于最小风险的SVM邮件过滤系统。我们将本文设计的基于风险最小化的贝叶斯邮件过滤算法和SVM邮件过滤算法在邮件过滤平台上利用SEWM2012数据集进行测试,实验数据证明,相对于经典的Bogo过滤器,其可靠性和有效性有较大提升。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 研究背景
  • 1.1.1 垃圾邮件的现状
  • 1.1.2 垃圾邮件的概念
  • 1.1.3 垃圾邮件的危害
  • 1.2 对付垃圾邮件的对策和意义
  • 1.3 主要过滤技术
  • 1.3.1 基于IP层
  • 1.3.2 基于SMTP协议
  • 1.3.3 基于内容
  • 1.4 本文研究的内容
  • 1.5 本文的组织结构
  • 第二章 贝叶斯和SVM的理论基础
  • 2.1 电子邮件的基本原理
  • 2.2 贝叶斯的基本原理
  • 2.2.1 贝叶斯相关数学公式
  • 2.2.2 贝叶斯定理
  • 2.2.3 朴素贝叶斯方类器
  • 2.2.4 两种事件模型
  • 2.3 支持向量机理论
  • 2.3.1 机器学习的基本思想
  • 2.3.2 统计学习理论
  • 2.3.3 支持向量机基本思想
  • 2.3.4 最优分类平面
  • 2.3.5 内积核函数
  • 2.4 贝叶斯和SVM分类的一般流程
  • 2.4.1 贝叶斯分类流程
  • 2.4.2 SVM分类流程
  • 2.5 朴素贝叶斯和SVM算法的优缺点
  • 2.5.1 朴素贝叶斯方法的优缺点
  • 2.5.2 SVM算法的优缺点
  • 2.6 本章小结
  • 第三章 基于风险最小化邮件过滤模型的设计
  • 3.1 邮件过滤模型
  • 3.2 分类决策风险最小化的贝叶斯过滤模型
  • 3.2.1 过滤规则
  • 3.2.2 基于分类决策风险最小的贝叶斯算法
  • 3.3 结构风险最小化的SVM分类模型
  • 3.3.1 代价规则
  • 3.3.2 基于结构风险最小化的SVM算法
  • 3.4 本章小结
  • 第四章 基于风险最小化邮件过滤模型的实现
  • 4.1 文本表示
  • 4.2 特征选择
  • 4.2.1 贝叶斯基于类条件分布的特征选择
  • 4.2.2 SVM改进的互信息特征选择方法
  • 4.3 邮件头和正文特征的加权集成
  • 4.4 基于风险最小化过滤算法实现
  • 4.4.1 贝叶斯过滤的算法实现
  • 4.4.2 SVM过滤的算法实现
  • 4.5 阈值动态调整
  • 4.6 本章小结
  • 第五章 实验测试及结果分析
  • 5.1 实验的评价方式
  • 5.1.1 实验环境
  • 5.1.2 邮件过滤语料库
  • 5.1.3 基准过滤系统
  • 5.1.4 评价体系
  • 5.2 实验结果及性能分析
  • 5.3 本章小结
  • 第六章 展望与总结
  • 参考文献
  • 致谢
  • 相关论文文献

    • [1].基于改进贝叶斯原理的垃圾邮件过滤算法研究[J]. 计算机与数字工程 2020(03)
    • [2].基于主题模型的垃圾邮件过滤系统的设计与实现[J]. 电信科学 2017(11)
    • [3].基于贝叶斯算法的垃圾邮件过滤的方法研究[J]. 电脑知识与技术 2017(13)
    • [4].垃圾邮件过滤技术综述[J]. 电脑知识与技术 2016(14)
    • [5].基于图像型垃圾邮件过滤系统的研究[J]. 电子世界 2016(19)
    • [6].浅析邮件系统中垃圾邮件过滤技术[J]. 数码世界 2017(05)
    • [7].一种基于规则的垃圾邮件过滤算法实现[J]. 南方农机 2018(02)
    • [8].贝叶斯垃圾邮件过滤系统的设计与实现[J]. 内蒙古农业大学学报(自然科学版) 2017(03)
    • [9].智能垃圾邮件过滤系统的实现研究[J]. 信息与电脑(理论版) 2016(11)
    • [10].基于行为的垃圾邮件过滤技术研究[J]. 计算机光盘软件与应用 2015(03)
    • [11].一种智能垃圾邮件过滤模型的仿真研究[J]. 计算机仿真 2013(05)
    • [12].基于免疫算法的垃圾邮件过滤技术的研究[J]. 齐齐哈尔大学学报(自然科学版) 2013(03)
    • [13].基于贝叶斯方法的垃圾邮件过滤技术综述[J]. 电脑知识与技术 2013(14)
    • [14].垃圾邮件过滤技术发展现状及展望[J]. 数字技术与应用 2012(05)
    • [15].面向垃圾邮件过滤的典型机器学习算法比较研究[J]. 黑龙江工程学院学报(自然科学版) 2012(02)
    • [16].对垃圾邮件过滤技术的问题研究[J]. 计算机技术与发展 2011(09)
    • [17].图像型垃圾邮件过滤技术研究综述[J]. 计算机系统应用 2011(10)
    • [18].基于机器学习的垃圾邮件过滤技术[J]. 中国科技信息 2010(06)
    • [19].垃圾邮件过滤技术概述[J]. 长江大学学报(自然科学版)理工卷 2010(01)
    • [20].双层垃圾邮件过滤模型研究[J]. 郑州轻工业学院学报(自然科学版) 2010(03)
    • [21].一种基于时间流特性的垃圾邮件过滤方法[J]. 中文信息学报 2009(01)
    • [22].垃圾邮件过滤技术研究[J]. 通信与信息技术 2009(02)
    • [23].实际环境中垃圾邮件过滤测试方法研究[J]. 信息安全与通信保密 2009(04)
    • [24].垃圾邮件过滤技术研究综述[J]. 计算机应用研究 2009(05)
    • [25].决策树在垃圾邮件过滤中的应用[J]. 兰州工业高等专科学校学报 2008(04)
    • [26].基于协同过滤的垃圾邮件过滤系统[J]. 计算机工程 2008(23)
    • [27].基于内容的垃圾邮件过滤技术综述[J]. 黑龙江科技信息 2008(36)
    • [28].垃圾邮件过滤系统的设计[J]. 辽宁石油化工大学学报 2008(01)
    • [29].深度置信网络在垃圾邮件过滤中的应用[J]. 计算机应用 2014(04)
    • [30].改进的贝叶斯算法在垃圾邮件过滤中的应用[J]. 信息通信 2013(09)

    标签:;  ;  ;  ;  ;  

    基于风险最小化的垃圾邮件过滤方法研究
    下载Doc文档

    猜你喜欢