GC-MS数据高性能分析算法研究

GC-MS数据高性能分析算法研究

论文摘要

气相色谱-质谱联用仪(GC-MS)因具有鲁棒性、高灵敏度、高可检测范围等优点,已被广泛运用于食品安全、医药、生化等领域的研究,是公认的分析和检测复杂样品的重要手段之一。国家已把发展国产质谱仪列为长远规划,目前国产质谱仪不仅核心检测器件比较落后,质谱数据处理算法和软件的研究也才刚刚起步。GC-MS数据处理需经过去噪、基线校正、谱峰识别、重叠峰解析、保留时间对齐和数据挖掘等步骤,其中重叠峰解析和保留时间对齐这两步最具挑战性和最耗时,急需精确的自动化算法。现有质谱分析算法大多只能处理单个样本、功能单一、计算速度缓慢、无法自动完成,难以满足有效管理、快速分析挖掘海量GC-MS数据的需求,成为制约质谱技术应用的瓶颈。为有效解决上述问题,本论文提出一种高度集成的智能GC-MS数据处理技术的构想,其主要工作如下:(1)GC-MS数据描述与已有算法分析。首先对GC-MS数据、提取离子流、总离子流进行数学描述并说明其物理意义;对GC-MS原始数据处理流程和方法、质谱标准数据检索进行了综述;最后对现GC-MS数据处理免费软件进了汇总和介绍。(2)提出一种用于GC-MS重叠峰精确解析的差异变量-多元曲线分辨(DV-MCR)方法。针对MCR-ALS算法用于GC-MS重叠峰解析时难以确定主成分数和初始矩阵而导致计算结果不够精确的问题,提出DV-MCR方法,并模拟不同条件的数据进行验证,结果表明,该方法比传统的MCR-ALS方法解析结果更加精确。(3)采用动态规划方法对保留时间对齐。针对其它保留时间对齐方法结果不够精确,难以自动化完成的问题,将动态规划成功引入保留时间对齐,该方法同时依赖特征峰所在的保留时间和质谱,可以同时对大量GC-MS样本进行自动对齐,并通过实验数据验证了该方法的对齐效果。(4)提出一种通用的基于多线程的并行交叉验证框架。针对GC-MS数据挖掘过程中,机器学习算法在模型评估时使用交叉验证计算量非常大、非常耗时的问题,提出了一种通用的基于多线程的并行交叉验证框架,并使用SVM和PLS算法,通过不同大小的数据集对框架验证其有效性。(5)提出CloudChem—一种基于云计算的化学计量学软件服务。它采用软件即服务模式和并行计算技术,可以较好克服传统化学计量学软件的缺点,基于该方法的软件服务平台可实现光谱、色谱、质谱等数据的有效、高速、一体化的存储、分析、挖掘,最大限度减小用户在使用化学计量软件的基础设施成本和软件成本。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 课题研究目的与意义
  • 1.2 本课题国内外研究现状和发展
  • 1.2.1 质谱数据处理研究现状
  • 1.2.2 云计算研究现状
  • 1.3 本论文主要内容
  • 第二章 GC-MS数据处理方法
  • 2.1 GC-MS原始数据结构
  • 2.1.1 原始数据组成
  • 2.1.2 提取离子流和总离子流强度
  • 2.2 原始数据处理
  • 2.2.1 数据预处理方法
  • 2.2.2 谱峰识别
  • 2.2.3 重叠峰解析
  • 2.2.4 保留时间对齐
  • 2.3 标准数据库检索
  • 2.4 GC-MS数据处理免费软件介绍
  • 2.5 本章小节
  • 第三章 用于二维数据重叠峰解析的差异变量-多元曲线分辨方法
  • 3.1 引言
  • 3.2 MCR-ALS算法原理
  • 3.3 DV-MCR理论分析
  • 3.3.1 差异变量选择
  • 3.3.2 初始估计色谱曲线和主成分个数的确定
  • 3.3.3 运用MCR-ALS精确解析纯色谱和纯质谱
  • 3.4 模拟实验数据和实施
  • 3.5 结果与讨论
  • 3.5.1 不同初始矩阵之间的比较
  • 3.5.2 不同分离度之间的比较
  • 3.5.3 不同信噪比之间的比较
  • 3.5.4 不同丰度比之间的比较
  • 3.6 本章小结
  • 第四章 基于动态规划的多样本保留时间对齐方法
  • 4.1 引言
  • 4.2 用于序列对齐的动态规划算法原理
  • 4.3 基于动态规划峰对齐原理
  • 4.3.1 特征峰相似度评分机制
  • 4.3.2 对已对齐的特征峰对进行对齐
  • 4.3.3 任意多个样本间进行对齐
  • 4.4 实验
  • 4.5 结果及讨论
  • 4.6 本章小节
  • 第五章 并行交叉验证框架设计与实现
  • 5.1 引言
  • 5.2 系统框架
  • 5.2.1 编程模型
  • 5.2.2 API
  • 5.2.3 运行时
  • 5.3 实验与分析
  • 5.3.1 数据集
  • 5.3.2 参数设置
  • 5.3.3 实验结果
  • 5.3.4 结果分析
  • 5.4 本章小结
  • 第六章 基于云计算的质谱数据分析平台介绍
  • 6.1 引言
  • 6.2 主要功能
  • 6.3 总体结构
  • 6.4 关键技术
  • 6.4.1 数据存储管理
  • 6.4.2 并行计算
  • 6.4.3 SaaS
  • 6.4.4 Open API
  • 6.5 本章小结
  • 第七章 结论与展望
  • 7.1 结论
  • 7.2 展望
  • 参考文献
  • 致谢
  • 作者在攻读硕士期间主要研究成果
  • 相关论文文献

    • [1].基于峰谷分析算法用针刺仪测定树木年龄的可行性分析[J]. 林业科学研究 2020(05)
    • [2].改进的安全协议自适应分析算法研究[J]. 科学中国人 2016(36)
    • [3].通信网络大数据相关性分析算法研究[J]. 信息通信 2020(03)
    • [4].二维非均匀多孔介质中不可压两相驱替的有限分析算法[J]. 计算物理 2015(05)
    • [5].国内外医学图像分析算法研究进展概况[J]. 世界最新医学信息文摘 2017(04)
    • [6].基于云计算的食品有毒有害物质检验检测大数据的风险分析算法及其应用[J]. 安徽农业科学 2017(21)
    • [7].交联网络中的可重叠社团结构分析算法[J]. 华南理工大学学报(自然科学版) 2008(05)
    • [8].基于分类的微博情感分析算法研究及实现[J]. 计算机与数字工程 2017(02)
    • [9].HTML页面中的文献记录分析算法[J]. 北京邮电大学学报 2017(S1)
    • [10].基于情感分析算法在笑声音频检测与应用的探索[J]. 高考 2019(05)
    • [11].高聚焦时频分析算法研究[J]. 现代电子技术 2020(13)
    • [12].一种基于信息熵的协议分析算法[J]. 电脑知识与技术 2017(21)
    • [13].一种强干扰下无线拼接组网临界跨越分析算法[J]. 科技通报 2014(06)
    • [14].改进的独立分量分析算法[J]. 东北大学学报(自然科学版) 2010(08)
    • [15].扩展的快速独立分量分析算法[J]. 哈尔滨工程大学学报 2009(07)
    • [16].机械故障诊断的遗传-独立分量分析算法[J]. 农业机械学报 2008(11)
    • [17].广域网络安全态势值统计分析算法[J]. 信息安全与通信保密 2008(07)
    • [18].独立分量分析算法在信号去噪中的应用[J]. 电子世界 2019(09)
    • [19].供水管网三维分析算法的研究与应用[J]. 计算机技术与发展 2019(06)
    • [20].中科院博士团队落户杭州智诺[J]. 中国公共安全 2013(08)
    • [21].基于粒子群优化的独立分量分析算法研究[J]. 科学技术与工程 2010(08)
    • [22].基于数据挖掘与神经网络的财务异常数据监测分析算法[J]. 电子设计工程 2020(11)
    • [23].重加权稀疏主成分分析算法及其在人脸识别中的应用[J]. 计算机应用 2020(03)
    • [24].一种改进的微博用户影响力分析算法[J]. 计算机技术与发展 2020(08)
    • [25].核熵成分分析算法及其在化工过程监控中的应用研究[J]. 计算机与应用化学 2013(08)
    • [26].样本自选择回归分析算法在转炉炼钢中的应用[J]. 钢铁研究学报 2011(12)
    • [27].基于半分析算法的香港邻近海域叶绿素a浓度反演[J]. 湖泊科学 2009(02)
    • [28].基于关联分析算法的配电网多级冗余数据校验与挖掘技术研究[J]. 电测与仪表 2020(15)
    • [29].基于局部注意力的方面级别情感分析算法[J]. 智能计算机与应用 2020(06)
    • [30].一种面向问卷图像的版面分析算法[J]. 软件学报 2017(02)

    标签:;  ;  ;  ;  ;  

    GC-MS数据高性能分析算法研究
    下载Doc文档

    猜你喜欢