垃圾邮件过滤技术算法研究

垃圾邮件过滤技术算法研究

论文摘要

随着互联网的普及,电子邮件以其快捷、方便的优点逐渐发展成为人们工作和生活的重要通信工具之一。然而,随之而来的垃圾邮件问题也日益滋生,作为商业广告、恶意程序或敏感内容的载体也越来越对系统的安全和人们的生活造成了严重的威胁,反垃圾邮件问题已经成为全球性的具有重要现实意义的研究课题。 支持向量机(SVM)是在统计学习理论的基础上发展而来的一种新的模式识别方法,在解决有限样本、非线性及高维模式识别问题中表现出许多特有的优势。它不仅考虑了对推广能力的要求,而且追求在有限信息的条件下得到最优结果。考虑到支持向量机的分类性能对核函数参数取值的强依赖性,用遗传算法优化SVM的核函数参数,并将GA-SVM算法应用于垃圾邮件过滤。本模型主要以探索为目的,观察其可行性和有效性。初步实验证明,该模型具有过滤效果好、训练时间短的特点。 本文首先介绍了垃圾邮件的基本知识,包括垃圾邮件的定义、发展历史和危害,然后介绍了现有的垃圾邮件过滤方法。基于SVM的垃圾邮件过滤方法是以内容过滤为主,文中相应地阐述了与内容过滤相关的文本分类以及机器学习的知识。其次,介绍了统计学理论中SVM理论的定义和邮件样本预处理工作。并由SVM理论引申出SVM垃圾邮件过滤算法,分析SVM算法的依赖性,提出用遗传算法优化核函数参数,构建垃圾邮件过滤模型。在模型实现部分还给出了重点代码框架。最后是对SVM垃圾邮件过滤模型性能评估和对其性能优化的讨论。 实验结果的评估表明,本论文提出的新的邮件过滤模型在一定环境下具备良好的过滤性能。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 研究背景
  • 1.2 垃圾邮件的历史
  • 1.3 垃圾邮件的定义
  • 1.4 垃圾邮件的组成
  • 1.5 邮件用户与垃圾邮件
  • 第2章 邮件格式分析与工作原理
  • 2.1 电子邮件的组织结构
  • 2.1.1 邮件的结构
  • 2.1.2 邮件的信头
  • 2.2 电子邮件的工作原理
  • 2.2.1 电子邮件工作原理
  • 2.2.2 SMTP协议
  • 2.2.3 POP3协议
  • 2.2.4 IMAP协议
  • 2.2.5 MIME协议
  • 2.2.6 Open Relay原理
  • 第3章 垃圾与反垃圾邮件技术概况
  • 3.1 反垃圾邮件技术
  • 3.2 垃圾邮件过滤技术
  • 第4章 邮件过滤模型预处理
  • 4.1 自动文本分词技术
  • 4.1.1 英文分词
  • 4.1.2 中文分词
  • 4.2 自动文本分类技术
  • 4.3 文本分类中的特征提取
  • 第5章 支持向量机及改进算法
  • 5.1 支持向量机
  • 5.1.1 统计学习理论
  • 5.1.2 支持向量机简述
  • 5.1.3 支持向量机的核函数
  • 5.1.4 核函数作用及核参数的影响
  • 5.1.5 支持向量机中参数 C的影响
  • 5.2 改进的支持向量机算法GA-SVM
  • 5.2.1 SVM模型及遗传算法适应度函数
  • 5.2.2 SVM参数编码方案
  • 5.2.3 算法停止准则及遗传算子
  • 5.2.4 遗传算子及相关参数的选择
  • 5.2.5 GA-SVM算法流程
  • 第6章 系统设计与评测
  • 6.1 过滤系统设计
  • 6.1.1 邮件预处理模块
  • 6.1.2 邮件内容过滤模块
  • 6.2 系统评测
  • 6.2.1 评价标准
  • 6.2.2 性能评估
  • 第7章 结论
  • 参考文献
  • 攻读学位期间公开发表论文
  • 致谢
  • 研究生履历
  • 相关论文文献

    标签:;  ;  ;  ;  

    垃圾邮件过滤技术算法研究
    下载Doc文档

    猜你喜欢