基于多类特征融合的基因启动子相关问题的理论研究

基于多类特征融合的基因启动子相关问题的理论研究

论文摘要

基因的表达调控体现在许多层面上,主要是转录水平的调控,阐明基因转录起始调控机制对于后基因组时代的基因组功能注释起到非常关键的作用。基因转录起始是由多种启动子识别因子共同作用的结果,基因组内部的启动子序列作为基因表达所必需的重要序列信号和基因转录水平上最重要的一种调控元件,对它们的研究是研究转录调控、下游靶基因以及信号通路的必不可少的手段。核心启动子的多态性如何与多种启动子识别因子相匹配己成为Pol-Ⅱ基因转录启动遇到的新难题。不同的基因可能存在完全不同的表达调控机制,使得不同物种启动子内部调控元件的组成存在较大的差异。GC碱基特征是影响启动子特性及下游相关基因表达非常重要的因素,功能元件的位置调控导致的基因功能变化在转录调控中也越来越显著。另外,核心启动子元件在统计上保守性不强,使得对基因启动子及其转录起始点(TSS)的识别精度远低于对蛋白质编码区域的识别。本文的工作主要是针对基因启动子功能区域的GC-Skew/Profile、位点保守性、DNA几何结构、调控模体的位置调控等相关特征和构建基于多特征融合的启动子识别模型两方面展开研究,主要研究成果如下:一、通过比较分析四类模式物种基因启动子在碱基组成上的偏好,证实了人类启动子序列典型的GC偏好特征,以及不同生物基因启动子具有独特的GC位点组成偏好和位点碱基偏差;发现人类启动子越接近TSS处位点保守性越强,果蝇启动子则在距离TSS位点-80bp的上游区域存在较显著位点保守性,而植物启动子除TATA-box和转录起始子(Inr)定位区域保守性较强外,其它区域无明显保守性。通过比较DNA空间几何结构柔性,发现了不同生物类型转录起始区域的独特DNA物理结构特异性和各向异性的特征规律,为实际的蛋白质-DNA相互作用过程提供一定的三维柔性结构参数。二、对启动子内部功能模体及定位分布的统计分析,证实了功能模体的位置调控与序列位点保守性规律一致,且不同物种间存在较大差异。找到了人类基因组启动子区域典型的-40bp元件—GGAAG调控模体,搜索出了集中出现在果蝇TSS上游-80bp以外区域的TA重复序列元件,并通过GO基因注释对调控模体的生物学意义进行了深入探究。三、着重比较了不同生物基因启动子内部的’TATA-box和TC-元件位点保守性和定位分布,发现TATA-box在果蝇启动子的197bp、-195bp、-184bp和-165bp等位点存在较大定位。TC-元件代表一类新的参与基因表达调控的功能模体,TC-重复元件大量存在于多类物种的TATA-box缺失的基因启动子中,偏好出现在一些环境特异性组织的启动子序列中,这些基因的转录只发生在某些特定器官或组织中。证实了真核基因启动子TATA-box末端富含嘌呤碱基“AAAA”的尾端,原核生物基因TATA-box模体除TATAAT外,尾端富含嘧啶碱基“GCGC”。通过比较不同σ类型的大肠杆菌启动子调控模体位置分布,找到了σ54启动子TSS上游的-24bp位点的CTGGCA模体和σ28启动子特有的TG[CA]CGATAA元件。四、通过对大肠杆菌启动子、编码区和基因间区域的DNA几何特征图谱的比较和分析,证明基于序列独立性的DNA几何柔性结构特征能够很好的反映原核生物转录起始区域的结构特异性。针对启动子识别中两个最关键的问题—特征提取和算法筛选,我们采用特征参数二次整合方法,构建了基于序列信号、组分及DNA几何结构的植物TATA和TATA-Less启动子识别模型,达到了目前国际最好预测效果。利用最新发表的组蛋白修饰信息,整合表观遗传标记特征和DNA序列信息构建了人类基因启动子识别算法,验证了组蛋白修饰对于启动子识别的重要性,讨论了染色质表观标记信息与信号、组分及DNA结构特征对于启动子预测精度的影响。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 研究背景和意义
  • 1.2 国内外研究现状
  • 1.2.1 原核启动子研究进展
  • 1.2.2 真核启动子研究进展
  • 1.2.3 组蛋白修饰与基因转录起始
  • 1.3 本研究结构安排
  • 第二章 启动子特征分析方法
  • 2.1 启动子位点关联保守性
  • 2.2 调控模体比较
  • 2.2.1 WebLogo位点保守性表达
  • 2.2.2 MEME调控模体搜寻
  • 2.3 DNA局域几何结构描述
  • 2.4 GC-Skew和GC-Profile定义
  • 第三章 基因启动子特征分析
  • 3.1 数据集的构建
  • 3.2 启动子碱基组成及碱基短程关联偏好
  • 3.3 转录起始区域的GC偏差分析
  • 3.4 位点关联保守性分析
  • 3.5 转录起始区域的DNA几何柔性
  • 3.6 小结
  • 第四章 调控模体的位置调控
  • 4.1 转录起始位点周围的调控模体定位
  • 4.2 TATA-box元件的定位保守性
  • 4.3 TC-元件的定位保守性
  • 4.4 不同σ类型启动子调控模体的定位分布
  • 4.5 小结
  • 第五章 特征提取和理论预测方法
  • 5.1 算法发展现状
  • 5.2 位置关联打分矩阵
  • 5.3 离散增量
  • 5.3.1 离散量和离散增量
  • 5.3.2 离散增量算法
  • 5.4 支持向量机
  • 5.5 多模型组合的SVM算法
  • 5.6 算法评价指标
  • 第六章 整合DNA几何结构预测原核生物启动子
  • 6.1 数据获取
  • 6.2 DNA局域几何柔性分析
  • 6.3 不同σ启动子的DNA几何柔性
  • 70启动子预测'>6.4 大肠杆菌σ70启动子预测
  • 第七章 基于多特征融合的植物和人类启动子预测
  • 7.1 植物启动子预测
  • 7.1.1 数据选取
  • 7.1.2 位点保守性分析
  • 7.1.3 TATA和TATA-Less启动子调控模体差异
  • 7.1.4 GC/AT-Skew分析
  • 7.1.5 TATA和TATA-less启动子预测
  • 7.1.6 拟南芥基因启动子区广范围注释
  • 7.2 整合表观遗传学标记预测人类启动子
  • 7.2.1 数据集获取
  • 7.2.2 特征选取
  • 7.2.3 人类CpG启动子预测结果
  • 7.2.4 人类non-CpG启动子预测结果
  • 7.3 本章小结
  • 第八章 总结与展望
  • 8.1 本文工作总结
  • 8.2 工作展望
  • 参考文献
  • 附录
  • 致谢
  • 攻读博士学位期间发表和完成的学术论文
  • 相关论文文献

    • [1].植物人工启动子的研究进展[J]. 分子植物育种 2019(22)
    • [2].启动子的类型及应用[J]. 山西农业科学 2017(01)
    • [3].哺乳动物可变启动子的功能及其与疾病的关系[J]. 上海交通大学学报(医学版) 2017(04)
    • [4].谷氨酸棒状杆菌新型诱导启动子的研究[J]. 海南师范大学学报(自然科学版) 2016(02)
    • [5].植物启动子研究进展[J]. 生物技术通报 2015(02)
    • [6].植物启动子研究进展[J]. 北方园艺 2015(22)
    • [7].通过串联启动子实现纳豆激酶在枯草芽孢杆菌中的高效表达[J]. 现代食品科技 2016(11)
    • [8].植物受病原物诱导启动子概述[J]. 植物保护学报 2014(02)
    • [9].串联双病原物诱导启动子驱动基因表达的特性[J]. 植物病理学报 2013(04)
    • [10].双启动子对增强型绿色荧光蛋白表达的影响[J]. 中国生物制品学杂志 2009(10)
    • [11].粗糙集理论在启动子识别中的应用研究[J]. 计算机与数字工程 2008(04)
    • [12].信号转导与转录激活子1对高迁移率族蛋白1启动子转录的调控作用[J]. 广州医科大学学报 2020(02)
    • [13].植物基因工程中人工启动子的研究进展[J]. 植物生理学报 2011(02)
    • [14].一个硫化叶菌病毒启动子的分离与鉴定[J]. 应用与环境生物学报 2019(02)
    • [15].大豆组织特异启动子的克隆与功能分析[J]. 中国油料作物学报 2017(06)
    • [16].高等植物启动子研究概述[J]. 分子植物育种 2018(05)
    • [17].耐盐小麦中TaSC基因启动子的克隆及调控功能分析[J]. 作物学报 2018(04)
    • [18].启动子结构、功能预测和验证方法的研究进展[J]. 分子植物育种 2018(12)
    • [19].大肠杆菌染色体上严谨型启动子的构建[J]. 微生物学通报 2018(08)
    • [20].植物逆境相关启动子及功能[J]. 遗传 2010(03)
    • [21].启动子的潜在语义索引差异识别算法[J]. 烟台大学学报(自然科学与工程版) 2010(03)
    • [22].山羊角蛋白14基因启动子分析及其多态性研究[J]. 中国畜牧兽医 2012(08)
    • [23].细菌启动子识别及应用研究进展[J]. 生物工程学报 2010(10)
    • [24].报告基因法比较两种放线菌启动子的活性[J]. 微生物学报 2009(11)
    • [25].筛选脱氮假单胞菌启动子提高维生素B_(12)产量[J]. 生物技术通报 2017(08)
    • [26].启动子替代构建克雷伯氏菌普鲁兰酶高产菌株[J]. 食品与发酵工业 2015(10)
    • [27].枯草芽孢杆菌表达系统及其启动子研究进展[J]. 生物技术通报 2015(02)
    • [28].植物人工启动子研究进展[J]. 广东农业科学 2014(06)
    • [29].基于一致序列多样性分析的启动子预测方法[J]. 生物信息学 2012(03)
    • [30].IL-10启动子-592基因多态性与肠易激综合征的关系[J]. 现代医院 2010(09)

    标签:;  ;  ;  ;  ;  ;  ;  ;  

    基于多类特征融合的基因启动子相关问题的理论研究
    下载Doc文档

    猜你喜欢