软件缺陷自动分派研究

论文摘要

现代大型软件系统,特别是像Eclipse和Firefox这样的开源软件中,随着系统规模的增大和功能需求的增加,会不断有出现新的缺陷被检测和报告出来,因为数量庞大,所以人工地将这些缺陷分派给合适的维护人员进行修复,需要大量的时间和人力。同时,这样的大型系统中都会配备有专门的缺陷跟踪系统,以保存已提交缺陷的信息和处理过程,这些已有的历史信息为软件缺陷的自动分派提供了可能。软件的缺陷自动分派就是利用缺陷跟踪系统当中已经解决的那部分历史数据,结合数据挖掘的方法,将新提交的缺陷报告自动分派给合适的修复者的过程。传统的软件缺陷自动分派方法都是基于文本分类的,这种方法将缺陷报告中的描述信息看成文本,将修复缺陷的人员看成是文本的类别标签,通过在已经修复的历史缺陷报告上训练分类器的方式,对新提交的缺陷报告进行分派。但是相比于文本分类,软件缺陷分派有许多自身的特点,比如说文本信息较少,类比较多,软件缺陷拥有缺陷类型,所属平台等等基本属性信息,同时缺陷的修复者之间,具有一定的交互性等等。这些辅助信息都可以用来提高缺陷分派的效果。本文对软件缺陷自动分派的问题进行了研究,分析了这一问题的产生的背景和意义,同时还对软件缺陷分派的历史现状和主要方法进行了回顾,并且总结了软件缺陷分派问题中的主要特点。针对用单词表征缺陷报告文本时含有的特征空间维度高、数据稀疏且包含噪音等缺点,本文提出了一种基于主题模型的软件缺陷分派方法,通过PLSA和LDA两种模型,将缺陷报告的表征从单词空间映射到主题空间,进而在新的低维空间上进行缺陷分派。对比试验的结果表明,本文提出的基于主题模型的方法,对于提高缺陷分派的准确率和降低特征空间的维度,都有着明显的效果。

论文目录

摘要

Abstract

图目录

表目录

第一章引言

1.1 研究背景与意义

1.2 本文的研究内容

1.3 本文的组织结构

第二章软件缺陷自动分派简介

2.1 软件的缺陷跟踪系统

2.2 软件缺陷报告

2.3 软件缺陷分派技术

2.3.1 缺陷修复者信息的提取

2.3.2 软件缺陷报告的特征空间构造

2.3.3 常用分类方法

2.4 本章小结

第三章软件缺陷分派研究现状

3.1 软件缺陷分派概述

3.2 基于文本分类的基本方法

3.3 使用LSA构建特征空间的方法

3.3.1 隐含语义分析

3.3.2 基于LSA的软件缺陷分派

3.4 使用Assignedto传递图调整推荐列表的方法

3.5 使用半监督文本分类的改进方法

第四章基于PLSA模型的软件缺陷分派

4.1 概率隐含语义分析（PLSA）

4.1.1 主题模型

4.1.2 PLSA模型

4.1.3 PLSA中的EM参数估计方法

4.2 基于PLSA模型的缺陷分派

4.3 实验及结果分析

4.3.1 实验数据

4.3.2 结果分析

第五章基于LDA模型的软件缺陷分派

5.1 隐含狄利克雷分配（LDA）

5.1.1 狄利克雷分布

5.1.2 MCMC参数估计方法

5.2 基于LDA模型的软件缺陷分派

5.3 实验及结果分析

第六章总结与展望

参考文献

发表学术论文

致谢

软件缺陷自动分派研究

论文摘要

论文目录

相关论文文献

猜你喜欢