单体分型和单体型频率估计 ——复杂性及算法

单体分型和单体型频率估计 ——复杂性及算法

论文摘要

计算机和网络技术的飞速发展,为分子生物学研究提供了新的强大手段。单体型信息因其在医学特别是遗传疾病研究方面具有重要意义,引起生物与医学工作者的极大关注。但绝大多数所研究的生物个体,包括人类自身,都是双倍体结构;目前由于时间和经济成本上的约束,在实验室里只能得到双倍体结构的复合基因型序列。因此,当需要知道物种或者组织的单体型序列信息时,我们必须借助于计算手段,将每一条基因型序列分解为两条单体型序列,这就是单体分型问题。本文研究了不同数据集及不同模型上单体分型问题的计算复杂性,设计和实现了一系列高效的单体分型和单体型频率估计算法。其主要内容和贡献包括: (1) 群体数据集单体分型 群体数据集不包含任何家系信息,是最常见的一种基因型数据集。关于群体数据集单体分型问题,目前常见的计算手段有Clark算法、PPH算法以及EM和GS等概率统计算法。本文对一种新近提出的基于最大节约原则的单体分型(HMP)模型进行了研究,证明其是NP-hard的和APX-hard的(即,除非NP=P,否则存在一个常数e>0,该问题没有比1+e好的多项式时间逼近算法)。因此,我们为其设计了一个多项式时间的贪心算法以及一个将贪心策略和分支限界策略集合在统一框架下的复合算法。实验结果表明:贪心算法在保持了较准确分型结果的基础上、运行速度相当快;而复合算法虽是完全算法,但其运行效率和实例规模比原有的分枝限界算法都得到了极大提高。 群体数据集中特定基因型序列分型(SGH)判定问题与上述Clark算法相关、它可以帮助我们更好理解单体分型问题。本文证明了SGH问题为NP-complete的。 (2) 家系数据集单体分型 由于家系信息的对单体构型的限制,基于家系数据集进行的单体分型和单体型频率估计的结果会更加可靠。目前对其研究集中于寻找使得家系中发生最少重组事件的单体构型。本文提出了一个k-最少重组单体分型(k-MRH)模型,它在现有的最少重组单体分型(MRH)模型中引入额外限制,使得重组事件在家系中更加合理地平衡分布。同时设计了k-MRH模型的一个综合了寻根策略的优化动态规划算法,尽管该模型也是NP-hard的,但我们的限制条件使其解空间大大缩小,从而大大提高了算法的搜索效率,这在模拟和实际数据的实验中都得到了验证。

论文目录

  • 中文摘要
  • ABSTRACT
  • 第一章 全文梗概
  • §1.1 计算生物学
  • §1.2 本文工作背景
  • §1.2.1 群体数据集单体分型
  • §1.2.2 家系数据集单体分型
  • §1.2.3 单体型频率估计
  • §1.3 文献资源
  • §1.3.1 机构、组织和个人
  • §1.3.2 电子文献资源
  • §1.3.3 期刊
  • §1.3.4 会议
  • §1.4 论文组织
  • 参考文献
  • 第二章 分子生物学背景
  • §2.1 遗传与变异的物质基础
  • §2.1.1 发现基因的历史
  • §2.1.2 染色体与DNA
  • §2.1.3 多态现象与SNP位点
  • §2.2 单体分型
  • §2.2.1 基因型与单体型
  • §2.2.2 单体分型
  • §2.3.本章小结
  • 参考文献
  • 第三章 群体数据集单体分型
  • §3.1 问题定义
  • §3.2 已有的工作
  • §3.2.1 Clark算法
  • §3.2.2 其他算法
  • §3.3 最大节约模型
  • §3.3.1 简单有效的模型
  • §3.3.2 计算复杂性
  • §3.3.3 分支限界算法
  • §3.3.4 贪心算法
  • §3.3.5 复合算法
  • §3.3.6 实验比较
  • §3.3.7 结论
  • §3.4 特定基因型序列分型
  • §3.5 本章小结
  • 参考文献
  • 第四章 家系数据集单体分型
  • §4.1 问题定义
  • §4.1.1 家系及家系数据集单体分型
  • §4.1.2 重组
  • §4.2 已有的工作
  • §4.3 k-最少重组单体分型
  • §4.3.1 模型
  • §4.3.2 动态规划算法
  • §4.3.3 寻根策略
  • §4.3.4 实验比较
  • §4.3.5 结论
  • §4.4 零重组单体分型
  • §4.4.1 三元家庭单体分型和HCL-连锁
  • §4.4.2 合并操作
  • §4.4.3 传递操作
  • §4.4.4 线性时间算法
  • §4.4.5 扩展问题
  • §4.4.6 实验比较
  • §4.4.7 结论
  • §4.5 本章小结
  • 参考文献
  • 第五章 单体型频率估计
  • §5.1 已有的工作
  • §5.1.1 最大似然估计和EM算法
  • §5.1.2 群体数据集单体型频率估计
  • §5.2 家系数据集单体型频率估计
  • §5.2.1 三元家庭中单体型频率估计
  • §5.2.2 一般家系中单体型频率估计
  • §5.2.3 PL-EM算法
  • §5.2.4 实验比较
  • §5.2.5 结论
  • §5.3 本章小结
  • 参考文献
  • 第六章 总结
  • §6.1 本文工作
  • §6.2 本文贡献与创新之处
  • §6.3 进一步工作
  • 参考文献
  • 附录A 插图索引
  • 附录B 表格索引
  • 附录C 算法索引
  • 致谢
  • 在读期间参加的科研项目
  • 在读期间发表和录用的论文
  • 相关论文文献

    • [1].多单体熔融接枝聚丙烯的研究进展[J]. 工程塑料应用 2011(09)
    • [2].一种新型单体大棚的技术创新与现实意义[J]. 长江蔬菜 2014(02)
    • [3].膨胀单体在3D打印用光敏树脂中的应用[J]. 化工科技 2016(02)
    • [4].单体店的连锁之路[J]. 中国药店 2015(06)
    • [5].有机高分子化合物的单体推断[J]. 中学化学 2014(03)
    • [6].高效液相色谱法测定葡萄皮、籽中的15种单体酚[J]. 食品工业科技 2016(11)
    • [7].单体变连锁 正确避“雷区”[J]. 中国药店 2014(22)
    • [8].我国单体饭店发展与文化建设[J]. 决策与信息(财经观察) 2008(06)
    • [9].单体店的几种未来[J]. 中国药店 2015(06)
    • [10].纺丝单体对PE/PA6皮芯型复合纤维的影响及改进措施[J]. 化纤与纺织技术 2018(02)
    • [11].2015百货单体20强排行榜[J]. 上海商业 2015(12)
    • [12].液蜡分离单体烃工艺的研究[J]. 内蒙古煤炭经济 2015(04)
    • [13].单体集装箱在多功能空间中的设计应用[J]. 艺术与设计(理论) 2012(08)
    • [14].本田节能赛车单体壳制作技术研究[J]. 中国新技术新产品 2019(05)
    • [15].单体饭店培训体系的构建[J]. 现代企业教育 2012(09)
    • [16].单体酸组成分析及在生物柴油方面的应用[J]. 应用化工 2012(08)
    • [17].高速单体无人艇航行性能综合优化设计[J]. 舰船科学技术 2012(09)
    • [18].葡萄酒中14种单体酚的高效液相色谱测定[J]. 食品科学 2011(02)
    • [19].中耕苗间除草单体机构的研究与设计[J]. 黑龙江八一农垦大学学报 2011(04)
    • [20].曲江公司使用新型水单体支护效果好[J]. 中国矿山工程 2017(05)
    • [21].3“S”技术在单体滑坡风险评估中的应用[J]. 地球与环境 2011(01)
    • [22].聚羧酸系减水剂活性大单体合成的研究进展[J]. 绿色建筑 2011(02)
    • [23].苏州规范乡村民宿单体建筑经营用房[J]. 城市规划通讯 2017(16)
    • [24].单体引入方式对聚苯乙烯微球粒径分布的影响[J]. 航空材料学报 2014(03)
    • [25].旅游单体饭店信息化建设探讨[J]. 企业科技与发展 2008(04)
    • [26].往下游产品发展,是中国有机硅单体企业转型升级的必由之路[J]. 经济师 2019(06)
    • [27].浅谈单体药物性味归经的研究思路[J]. 中医药学报 2008(06)
    • [28].大转型时期中小型单体饭店战略联盟模式评估研究——基于“星程、星月和MHA模式”的比较视角[J]. 绥化学院学报 2015(06)
    • [29].新疆雪菊与名菊中7种单体酚的UPLC测定方法[J]. 食品工业 2015(08)
    • [30].单体文化及其资本量化分析(下)[J]. 现代传播(中国传媒大学学报) 2014(10)

    标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

    单体分型和单体型频率估计 ——复杂性及算法
    下载Doc文档

    猜你喜欢