基于全基因组的DNA序列词语挖掘

基于全基因组的DNA序列词语挖掘

论文摘要

伴随着测序技术的发展,许多生物的全基因组序列已经得到,所以摆在生物信息学家面前的问题是如何理解基因组中所蕴含的生物学机制。蕴藏着大量的控制生命活动的遗传信息的生物基因组与自然语言存在着密切关联,甚至可以说基因组本身可看作是一种细胞可读的“遗传语言”。生物基因组的词语构成分析是一个新的具有挑战性的研究。本文从语言学角度,将生物全基因组作为由词语组成的序列进行整体分析,利用计算语言学方法结合DNA序列的生物特性,进行全基因组的词语挖掘。首先针对基因组全局分析,提出了一种语言无关的真伪词分类算法;然后结合每个区域的局部特征,利用最大概率切分原理,对每条序列处理,识别并抽取出构成DNA序列形式化结构的所有词汇,为进一步DNA序列处理奠定基础;最后借助已知的功能片段来评价我们得到的结果词集。对启动子区域切分后得到的结果词集,利用已知的转录因子结合位点评价该词集,发现有78%的转录因子结合位点可以在结果词集中识别出来。对拟南芥基因组6个不同区域切分后,利用已知的人类基因组pyknons作为功能词集进行评价。发现每个区域都可以识别出已知的人类基因组pyknons,且在非蛋白质编码区域(基因间区域,启动子区域,内含子)识别出的pyknons比编码区域(编码序列,3’UTR,5’UTR)多。这一方面说明了人类基因组和拟南芥基因组中存在的一些共同调控元素;另一方面Pyknons在编码区和非编码区都有发现说明了这两个区域存在某些共同调控元素。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 研究背景
  • 1.2 研究的目的及意义
  • 1.3 国内外研究现状分析
  • 1.3.1 DNA 序列和人类语言的关系
  • 1.3.2 DNA 序列的特异频率词语识别研究
  • 1.3.3 基因组信号识别方法研究
  • 1.4 论文主要研究内容
  • 第2章 候选词语挖掘算法
  • 2.1 特征选择
  • 2.1.1 距离熵
  • 2.1.2 相对熵
  • 2.2 系统整体结构
  • 2.3 异常词语识别模块
  • 2.3.1 Z-score 值计算
  • 2.3.2 距离熵计算
  • 2.3.3 相对熵计算
  • 2.4 英文序列的词语挖掘过程
  • 2.4.1 构造后缀数组和最长公共前缀数组
  • 2.4.2 根据后缀数组分类
  • 2.5 DNA 序列的词语挖掘过程
  • 2.6 实验结果分析
  • 2.7 本章小结
  • 第3章 基于最优切分的词语挖掘算法设计
  • 3.1 最优切分基本思想
  • 3.2 最优切分算法具体步骤
  • 3.3 实验结果分析
  • 3.4 本章小结
  • 第4章 基因组词语挖掘结果分析
  • 4.1 DNA 转录过程
  • 4.2 识别已知的转录因子结合位点
  • 4.2.1 启动子区域扩展过程
  • 4.2.2 匹配的过程
  • 4.2.3 结果分析
  • 4.3 基于词汇的基因组相似性分析
  • 4.3.1 Pyknons 的获取过程
  • 4.3.2 实验步骤
  • 4.4 本章小结
  • 结论
  • 参考文献
  • 致谢
  • 相关论文文献

    • [1].基于科学思维的“DNA是主要的遗传物质”教学设计[J]. 教育观察 2019(30)
    • [2].基于粪便DNA的贺兰山岩羊亲权鉴定和婚配制研究[J]. 生态学报 2019(22)
    • [3].通过调节蛋白酶K消化时长优化DNA提取方法[J]. 生物化工 2019(06)
    • [4].蛹虫草线粒体DNA与细胞核DNA进化关系的比较[J]. 微生物学报 2019(12)
    • [5].有毒有机物影响DNA酶解和抗生素抗性基因横向迁移[J]. 农业环境科学学报 2020(01)
    • [6].蓝莓栽培品种的DNA条形码[J]. 林业科学 2019(12)
    • [7].应用于多个沉香属物种鉴定的DNA条形码序列筛选[J]. 中国药学杂志 2019(23)
    • [8].抗核抗体和抗双链DNA检测在系统性红斑狼疮诊断中的意义[J]. 中国医疗器械信息 2019(23)
    • [9].幽门螺旋杆菌诱导的胃腺癌DNA甲基化基因修饰研究进展[J]. 中国老年保健医学 2019(06)
    • [10].DNA分析技术在法医物证鉴定中的应用[J]. 法制博览 2020(03)
    • [11].磁性纳米颗粒负载质粒DNA的研究[J]. 华南农业大学学报 2020(01)
    • [12].DNA智慧扶贫工作室教育扶贫策略与实践[J]. 科技风 2020(06)
    • [13].家畜冷冻精液DNA的纯化及影响因素分析[J]. 南京农业大学学报 2020(02)
    • [14].蝙蝠蛾拟青霉及金水宝胶囊的DNA条形码鉴定[J]. 中国实验方剂学杂志 2020(08)
    • [15].3种DNA分子标记法联合鉴别草珊瑚及其混伪品[J]. 中草药 2020(03)
    • [16].探讨无创DNA检测和羊水细胞染色体检查的意义[J]. 中国卫生标准管理 2020(03)
    • [17].乳头状甲状腺癌中线粒体DNA突变的研究[J]. 中国细胞生物学学报 2020(01)
    • [18].非标记表面增强拉曼光谱在DNA检测中的应用[J]. 激光生物学报 2020(01)
    • [19].彗星电泳检测草胺磷对蚯蚓体腔细胞DNA的损伤[J]. 广东农业科学 2020(01)
    • [20].基于DNA检测的肉制品鉴伪技术研究进展[J]. 食品工业科技 2020(08)
    • [21].绵羊血液中布氏杆菌DNA提取方法的比较研究[J]. 畜牧与兽医 2020(03)
    • [22].环境DNA在水体中存留时间的检测研究——以中国对虾为例[J]. 渔业科学进展 2020(01)
    • [23].云斑白条天牛成虫不同组织部位DNA提取方法比较[J]. 滨州学院学报 2019(06)
    • [24].三七片DNA条形码分子鉴定及方法学考察[J]. 中草药 2020(07)
    • [25].DNA倍体分析系统在脱落细胞学及术中病理诊断中的应用[J]. 中国农村卫生 2020(03)
    • [26].DNA免疫吸附治疗重度活动性系统性红斑狼疮的疗效观察[J]. 中国社区医师 2020(07)
    • [27].红肉猕猴桃再生体系的建立及DNA条形码鉴定[J]. 植物生理学报 2020(03)
    • [28].蛋白质精氨酸甲基转移酶1调控DNA损伤修复和细胞凋亡[J]. 海洋科学 2020(03)
    • [29].基于密度梯度离心技术分离稳定同位素DNA的方法研究[J]. 实验科学与技术 2020(02)
    • [30].基于DNA链置换的可满足性问题的计算模型[J]. 阜阳师范学院学报(自然科学版) 2020(01)

    标签:;  ;  ;  ;  

    基于全基因组的DNA序列词语挖掘
    下载Doc文档

    猜你喜欢