基于改进SVM的垃圾邮件过滤系统研究与实现

基于改进SVM的垃圾邮件过滤系统研究与实现

论文摘要

随着互联网的不断发展普及,电子邮件因其使用方便、快捷、容易存储管理的优点,已经成为人们工作生活中不可或缺的交流工具。然而电子邮件带来了巨大便利的同时,也产生了极大的困扰——垃圾邮件问题。垃圾邮件的泛滥对互联网安全构成了极大的威胁,不仅占用了大量的带宽,严重浪费了网络资源,而且极大的影响了人们正常的工作生活。因此,反垃圾邮件工作具有重要的现实意义。面对日益严重的垃圾邮件问题,基于机器学习的垃圾邮件过滤技术成为研究的热点,其中基于支持向量机的垃圾邮件过滤研究更是倍受青睐,取得了一些研究成果。然而在垃圾邮件过滤技术研究和应用的过程中仍然存在一些问题有待解决。例如如何在尽量避免正常邮件不被误判的情况下,提高对垃圾邮件的识别能力、如何利用文本结构充分挖掘邮件语义信息,克服语义信息丢失问题以及如何通过整合现有过滤技术形成垃圾邮件过滤综合解决方案等。本文针对邮件过滤中存在的问题进行了研究,并最终构建了一个功能完善的垃圾邮件过滤系统。本文的主要工作包括以下三个方面:1.针对在垃圾邮件过滤过程中,正常邮件误判的问题,本文提出了一种基于加权支持向量机的垃圾邮件过滤方法。该方法在保证垃圾邮件识别能力的同时,有效减少了对正常邮件的误判。本文提出的基于加权支持向量机的垃圾邮件过滤方法,克服了传统的基于分类精度进行优化的分类方法对两类邮件的重要性未加以区别的缺点。该方法增加了两类邮件的类别权重及反映每封邮件重要性的权重,然后对支持向量机进行训练,得到垃圾邮件过滤器。通过调整类别权重,在保证分类精度的同时,尽可能的降低对正常邮件的误判率。实验结果表明该方法提高了过滤效果。2.针对垃圾邮件过滤时由于忽略文本结构而导致大量语义信息丢失的问题,本文提出了一种基于类别相关度量的词序列核,并将其应用于垃圾邮件过滤中,提高了垃圾邮件过滤的准确率。针对支持向量机中常用核函数由于忽略文本结构而导致大量语义信息丢失的现象,提出一种类别相关度量的词序列核,并将其应用于支持向量机垃圾邮件过滤中。该方法首先提取邮件文本特征并计算特征的类别相关度量,然后利用词序列核作为核函数训练支持向量机,训练过程中利用类别相关度量计算词的衰减因子,最后对邮件进行分类。实验结果表明,与常用核函数和字符串核相比,改进的词序列核分类准确率最高,该方法提高了垃圾邮件过滤的准确率。3.针对单一垃圾邮件过滤技术难以达到满意过滤效果的问题,本文提出了一种多层次的垃圾邮件过滤解决方案,构建了一个功能完善的垃圾邮件过滤系统。在充分了解各种邮件过滤技术优缺点的基础上,为了克服单一过滤技术效果不理想的情况,本文集IP地址和DNS的黑白名单、对主题和附件名的关键词过滤、邮件正文内容过滤以及附件文本内容过滤等多种过滤技术,充分发挥各种技术的优点,避免其缺点,最终构建了集邮件管理及邮件智能过滤功能于一体的垃圾邮件过滤系统。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 研究背景与意义
  • 1.2 垃圾邮件过滤的研究现状
  • 1.2.1 反垃圾邮件技术研究现状
  • 1.2.2 基于支持向量机的垃圾邮件过滤研究现状
  • 1.3 垃圾邮件过滤存在的问题
  • 1.4 本文的研究工作
  • 1.5 本文的组织结构
  • 第二章 垃圾邮件过滤系统关键技术
  • 2.1 电子邮件相关协议
  • 2.1.1 电子邮件传输过程
  • 2.1.2 电子邮件的格式
  • 2.1.3 电子邮件传输协议
  • 2.2 邮件解析技术
  • 2.2.1 正则表达式
  • 2.2.2 常用的邮件解析表达式
  • 2.3 邮件预处理技术
  • 2.4 垃圾邮件过滤关键技术
  • 2.4.1 基于规则的邮件过滤技术
  • 2.4.2 基于统计的邮件过滤技术
  • 2.5 评价指标
  • 2.6 本章小结
  • 第三章 改进支持向量机及其在垃圾邮件过滤中的应用
  • 3.1 引言
  • 3.2 支持向量机分类模型
  • 3.3 加权支持向量机及其在邮件过滤中的应用
  • 3.3.1 问题分析
  • 3.3.2 加权支持向量机过滤模型
  • 3.3.3 实验结果与分析
  • 3.4 基于类别相关度量的词序列核及其在垃圾邮件过滤中的应用
  • 3.4.1 问题分析
  • 3.4.2 基于相关度量的词序列核
  • 3.4.3 实验结果与分析
  • 3.5 两种过滤方法的比较
  • 3.5.1 评价指标比较
  • 3.5.2 训练时间比较
  • 3.6 本章小结
  • 第四章 垃圾邮件过滤系统的设计与实现
  • 4.1 引言
  • 4.2 系统的总体设计
  • 4.3 服务器端详细设计
  • 4.3.1 SMTP 服务器
  • 4.3.2 POP3 服务器
  • 4.3.3 服务器端邮件过滤模块设计
  • 4.3.4 反馈模块设计
  • 4.4 客户端详细设计
  • 4.4.1 客户端流程设计
  • 4.4.2 客户端过滤模块设计
  • 4.5 系统的实现
  • 4.5.1 服务器端实现
  • 4.5.2 客户端实现
  • 4.6 本章小结
  • 第五章 总结与展望
  • 参考文献
  • 攻硕期间发表论文及科研成果
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  ;  

    基于改进SVM的垃圾邮件过滤系统研究与实现
    下载Doc文档

    猜你喜欢