文本内容分类和主题追踪关键技术研究

论文摘要

互联网成为人们快速获取信息以及交换信息工具的同时,也给人们带来了更多新的挑战。人们迫切需要一种高效快速准确的技术来帮助自己处理浩瀚的信息。各种信息检索、信息过滤、分类、主题检测与追踪等文本信息处理技术应运而生,并且得到了越来越多的关注。目前,文本内容分类和主题追踪技术的研究逐渐成为了自然语言处理领域的研究热点。根据具体应用和需求通常需要对文本进行深入分析和处理。因此,本文分析和研究了文本内容分类和主题追踪任务的关键问题,提出了相应的解决方案,并通过大量的实验证明了这些方案的有效性。主要工作包括以下几点：（1）研究特征对不同类别之间的判别能力来提高文本分类的性能。采用合理的评价方式选择出对类别具有较强判别能力的特征来参与文本分类过程。以此来增强分类器对类别的判别能力。本文提出了基于判别能力的特征选取方法,该方法采用overall-divergence评价方式直接度量每个特征对不同类别之间的判别能力。实验结果显示,本文提出的特征选取方法在混淆数据集中很好地提高了文本分类的性能。在通用数据集中,基于判别能力的特征选取方法与最好的特征选取方法性能稍高或者相当。（2）针对文本分类中存在混淆类别的现象,主要研究混淆类判别技术,进而改善文本分类性能。首先本文提出了一种基于分类错误分布（Classification Error Distribution, CED）的混淆类识别技术,该技术能够识别预定义类别中的混淆类集合。为了有效地对属于混淆类的文本进行分类,识别预定义类别中的混淆类集合。为了有效判别混淆类,本文采用上述提出的基于判别能力的特征选取技术参与混淆类的判别过程,构建判别能力较强的混淆类分类器。本文设计并实现了基于两阶段的分类器设计框架。将初始分类器和混淆类分类器进行集成,组合两个阶段的分类结果作为最后输出。实验结果显示,在Newsgroup和863中文评测语料上,针对单标签、多类分类器体系,混淆类识别和判别技术有效地改善了分类性能。（3）研究垃圾邮件过滤任务中的关键技术。首先,本文研究计算简便并且速度要快的过滤算法；其次,考虑到垃圾邮件的内容特征随时间变化较快,本文研究需要具备反馈学习和自适应能力的垃圾邮件过滤技术。本文提出了基于两层内容分析的垃圾邮件过滤技术。设计并实现了基于两层内容分析的垃圾邮件过滤器。第一层是快速内容过滤,选用运行和更新较快的朴素贝叶斯分类器对邮件进行第一次过滤,将疑似的邮件送给第二层过滤。采用第二级内容过滤模块对疑似邮件再进行判别。由于垃圾邮件的内容特征随时间变化较快,本文还提出了基于反馈学习和自适应技术的垃圾邮件过滤技术。并将这些技术应用到初审/复审协作式垃圾邮件过滤框架中。在公开语料和实时网络环境下,垃圾邮件过滤性能较好。（4）针对主题追踪任务中主题没有明确描述的问题,本文研究了主题表示方式,提出了多向量模型。它采用多个向量表示文本,将文本中重要的特征提取出来,表示成单独的向量,并将多向量模型用于改善中文话题追踪的性能。由于命名实体名词对描述文本内容非常重要,因此在多向量模型中,将命名实体抽取出来成为单独的向量,再进行主题追踪。在TDT4中文语料上进行测试,实验结果显示采用多向量模型能够提高主题追踪系统的性能。（5）针对主题追踪任务中的主题漂移的问题,本文分析了主题漂移现象出现的原因和特点,提出了时间自适应提升（boosting）模型,该方法采用了自适应提升的思想。本文还提出了基于主动学习的自适应技术,该技术采用了基于流的主动学习框架。这两种方法都能够在追踪的过程中无监督地通过转移主题向量并对特征的权值进行调整来自适应地完善主题模型。根据主题时序性特点,在追踪系统中,引入时间因子的概念。在TDT4中文语料上进行测试,实验结果显示这两种技术能够部分地解决主题漂移问题,进而提高主题追踪的性能。目前文本内容处理技术大都是基于特征独立假设的,这种假设并不符合实际情况。而贝叶斯网络只进行条件独立假设,特征间的关系可以用在学习过程中。因此,下一步我们将研究贝叶斯网络用于文本分类、信息过滤和主题追踪任务中。

论文目录

摘要

ABSTRACT

第一章引言

1.1 研究背景

1.2 文本分类

1.2.1 文本分类的定义

1.2.2 文本分类研究现状

1.3 垃圾邮件过滤

1.4 主题追踪

1.4.1 基本概念

1.4.2 研究现状

1.5 本文研究内容

1.6 本文组织结构

第二章基于判别能力的特征选取方法

2.1 问题提出

2.2 解决思路

2.3 基于散度的特征选取

2.4 实验分析

2.4.1 分类器

2.4.2 常用特征选取方法

2.4.3 实验语料

2.4.4 评价指标

2.4.5 评价过程

2.4.6 实验结果

2.5 小结

第三章面向文本分类的混淆类判别技术

3.1 问题提出

3.2 混淆类识别技术

3.2.1 混淆类

3.2.2 基于分类错误分布的混淆类识别

3.3 混淆类判别技术

3.4 基于判别能力的特征选取

3.5 两个阶段的分类器设计

3.6 实验分析

3.6.1 实验语料

3.6.2 评价指标

3.6.3 实验结果

3.7 小结

第四章面向垃圾邮件过滤的内容分析技术

4.1 问题提出

4.2 初审/复审协作式垃圾邮件过滤

4.3 垃圾邮件特征的自动发现

4.3.1 邮件预处理

4.3.2 Ngram抽取及统计

4.3.3 N-gram过滤

4.3.4 垃圾邮件特征选择

4.4 基于两层内容分析的复审过滤

4.4.1 朴素贝叶斯分类器

4.4.2 最大熵分类器

4.5 反馈学习自适应处理

4.5.1 快速过滤模块的自适应

4.5.2 二级内容过滤模块的自适应

4.6 实验分析

4.6.1 邮件语料

4.6.2 评价方法

4.6.3 实验结果

4.7 小结

第五章面向中文主题追踪的反馈学习技术

5.1 问题提出

5.1.1 问题1:主题表示

5.1.2 问题2:主题漂移现象

5.2 基于一元语法模型的主题追踪模型

5.3 实验语料与评价机制

5.3.1 实验语料

5.3.2 评测机制

5.4 基于多向量模型的主题追踪

5.4.1 多向量模型

5.4.2 基于多向量模型的话题追踪

5.4.3 实验结果与分析

5.4.4 小结

5.5 基于TAB的主题追踪

5.5.1 自适应提升

5.5.2 提升方法的缺点

5.5.3 时间自适应提升模型

5.5.4 实验结果与分析

5.6 基于主动学习的自适应主题追踪

5.6.1 样本选择标准

ncw的建立'>5.6.2 新假设h_ncw的建立

5.6.3 打分归一化以及阂值设定

5.7 实验结果与分析

5.7.1 基于ATAL方法的主题追踪性能

5.7.2 打分归一化对主题追踪系统的影响

5.8 小结

第六章结论

6.1 本文的主要贡献与结论

6.2 进一步的工作

参考文献

致谢

攻博期间发表的文章

攻读博士学位期间科研获奖

科研经历

作者简介

文本内容分类和主题追踪关键技术研究

论文摘要

论文目录

相关论文文献

猜你喜欢