家蚕基因组数据库的构建及应用

家蚕基因组数据库的构建及应用

论文摘要

家蚕是重要的经济昆虫,也是鳞翅目昆虫的典型代表。实施家蚕基因组计划具有重要意义,一方面可以促进家蚕的生理、生化、代谢等方面的基础研究,阐明与茧丝形成相关的分子机制,为利用现代生物技术手段改造传统蚕丝产业打下基础;另一方面也可以为农林业害虫的防治提供新的思路和方法。另外,以家蚕作为生物反应器的研究也受到人们的关注。在人类基因组计划和其它模式生物基因组计划的带动下,2003年完成了家蚕全基因组测序,由中国和日本分别获得了序列覆盖度为6倍和3倍的基因组框架图。然而,该基因组框架图覆盖基因组还不完整、部分基因也只是碎片。为了获得更高质量的家蚕基因组序列图谱,中国和日本就构建家蚕基因组精细图谱开展了合作,相互交换测序数据,共同填补基因组空缺和开发分子标记,最后对家蚕基因组数据进行统一的拼接组装,于2007年共同完成了家蚕基因组精细图。高质量的家蚕基因组精细图的完成,为下一步的家蚕基因功能研究提供了良好的基础。然而,如何让研究者能方便地访问到基因组精细图的数据资源,从而获得对基因功能研究有用的信息或线索,是目前迫切需要解决的问题。针对这一问题,本文采用了多种生物信息学方法对家蚕基因的功能进行了注释,并利用基因芯片数据分析了家蚕基因的表达情况,在整理这些数据及基因组精细图相关数据的基础上,成功构建了一个信息含量丰富、使用方便、分析工具齐全的家蚕基因组数据库。基于家蚕基因组精细图数据和基因组数据库,本文还对家蚕C2H2型锌指蛋白基因进行了鉴定和分析。获得的主要结果如下:1.家蚕基因功能注释本研究采用了多种生物信息学方法对家蚕基因的功能进行了预测,这些信息能为下一步的基因功能研究提供线索。(1)序列相似性检索:根据序列上相似的基因可能在功能上也相似的原理,将家蚕的14623个预测基因到nr非冗余蛋白质序列数据库中进行序列相似性检索,以获得基因功能方面的提示。结果表明,有12246个基因能检索到相似基因(E-value<1E-5),占了家蚕基因总数的83.7%。其中有5250个基因高度保守(E-value<1E-80),分析显示,这些基因与DNA复制、能量代谢、蛋白质合成、脂类代谢、糖代谢等基础生理代谢过程相关。另外,还有2377个基因没有检索到相似基因,表明这些基因属于家蚕特异基因,推测它们可能与家蚕特异的生理代谢过程相关。(2)蛋白质结构域分析:所谓基因的功能,主要指其编码的蛋白质的功能,其中,蛋白质结构域起着重要的作用。因此,分析基因中的蛋白质结构域可以为我们了解基因的功能提供重要的线索。利用InterPro数据库对家蚕基因中的蛋白质结构域进行分析,结果显示,有8522个基因具有蛋白质结构域,占了家蚕全部基因的58.2%。在这些基因中,总共含有2509种不同类型的蛋白质结构域,数量最多的结构域是C2H2、LRR1、WD40、Ank、I-set等。根据蛋白质结构域的信息来预测基因功能,一方面能弥补序列相似性检索的不足,有79个基因在序列相似性检索的时候没能获得功能注释,但是利用蛋白质结构域信息却获得了基因的功能信息;另一方面,针对具有多个蛋白质结构域的基因,利用蛋白质结构域的信息可以更全面地反映基因的功能。(3)基于直系同源基因数据库的分析:COG直系同源基因数据库是一个存储不同物种中直系同源基因的数据库。基于该数据库,对家蚕的基因进行了分析。结果显示,总共有7839个基因能被划分到相应的直系同源基因簇中(E-value<1E-5)。其中,基因分布比较多的功能类别有基础功能簇、信号传导机制簇、翻译后修饰簇、蛋白更新和分子伴侣簇、脂质转运和代谢簇等,分别含有1602、987、593、436、391个家蚕基因。另外,我们还利用COG数据库中的物种特异基因库对家蚕的基因进行了分析。结果显示,有533个基因能划分到相应的物种特异基因簇中(1E-5)。其中有475个基因属于家蚕和果蝇的特异基因簇,说明这些基因都属于昆虫特异基因,它们可能与昆虫特异的生理代谢过程密切相关。结合以上三种方法,有6580个基因在三种方法中都能获得注释。这几种方法有各自的优缺点,通过将多种方法结合,可以更全面地反映基因的功能信息。2.家蚕基因芯片数据分析和数据库构建基因在不同时间和空间的表达差异决定着生物体的发育、分化、细胞周期调控、衰老、程序性死亡等生理代谢过程。为了在全基因组水平上获得基因表达信息,本实验室与生物芯片北京国家工程中心合作,共同定制完成了世界上第一张家蚕全基因组寡核苷酸基因芯片,并利用该芯片对家蚕5龄第3天幼虫的中肠、体壁、头、血液、精巢、卵巢、前中部丝腺、后部丝腺、脂肪体、马氏管这10个组织(或样品)中的基因表达谱进行了检测。本研究对获得的基因芯片数据进行了分析和可靠性检验,并构建了家蚕芯片数据库来提供这些数据的对外访问。基于基因芯片数据,分析发现,总共有10393个基因能检测到表达(即至少在一个组织中表达),占了芯片中全部基因总数的44.5%。其中有306个基因在每个组织中都高量表达,分析显示,这些基因中很多都属于看家基因,如核糖体蛋白基因、微管蛋白基因、翻译延长因子基因、肌动蛋白基因等。对组织特异表达基因进行分析,发现至少有1642个基因存在组织特异性表达,这些基因在精巢、中肠、马氏管等组织中分布较多,分别拥有1104、216、110个组织特异表达基因。结合基因的功能注释信息进行分析,结果显示,组织特异表达基因与组织的生理功能密切相关。对只在两个组织间共表达的家蚕基因进行了鉴定分析,发现至少有209个基因只在两个组织间共表达。分析显示,这些基因反映了组织间存在相似的生理功能或细胞组分。为了评估芯片数据的可靠性,我们采用了信息分析、实验验证等多种方法进行评估,结果都表明芯片数据是可靠的,说明我们的数据分析过程也是准确的。在整理基因芯片表达数据的基础上,我们成功地构建了家蚕芯片数据库BmMDB(http://silkworm.swu.edu.cn/microarray),使人们可以方便地访问到家蚕基因芯片数据。3.家蚕基因组数据库构建随着家蚕基因组精细图的完成,基因组的质量显著提高,获得了高质量的预测基因集,并且有87.4%的基因组序列能定位到染色体上。为了提供对精细图数据资源的访问,并提供更多的综合信息,本研究在整理数据资源的基础上重新构建了家蚕基因组数据库。新数据库的访问地址为:http://silkworm.swu.edu.cn/silkdb或http://silkworm.genomics.org.cn.在新的数据库中,采用了GBrowse基因组浏览器进行信息导航,替代了以前数据库中的MapView浏览器。GBrowse浏览器是一个国际上通用的基因组浏览器,基于GBrowse浏览器,可以方便地访问家蚕基因组上任意感兴趣的区域。同时,数据库中提供了多种检索方式,可以通过关键词、基因编号等进行检索,也可以通过网站中的BLAST工具对家蚕的ESTs序列、基因组序列、基因序列等进行序列相似性检索。基于基因组序列的染色体信息,我们还开发了家蚕染色体浏览器SCB和家蚕染色体定位工具SilkMap,方便对家蚕数据资源的使用。基因页面是家蚕基因组数据库的核心,在基因页面中,可以显示基因的详细信息,如蛋白质结构域信息、GO分类信息、基因相似性注释信息、基因家族信息、基因表达信息、参考文献信息、基因序列等,这些信息能为进一步的基因功能研究提供重要参考和线索。数据库中也提供了一些常用的在线分析工具,有利于对家蚕基因组数据进行信息分析。下一步,我们将逐步校正现有数据库中有问题的数据,并整理和添加更多的实验研究数据,如基因的SAGE信息、SNP信息、基因RNAi干涉后的表型信息、基因突变表型信息等,使数据库的信息含量更丰富。总之,家蚕基因组数据库的构建,必将在加速家蚕基因功能研究中发挥重要的作用。4.家蚕C2H2型锌指蛋白的鉴定C2H2型锌指具有DNA结合特异性,含有这类结构域的基因被称为C2H2型锌指蛋白基因,能在胚胎发育、细胞分化、变态等过程中起关键性的调控作用。利用Pfam数据库中C2H2型锌指的HMM模型(PF00096),对家蚕基因组中的C2H2型锌指蛋白基因进行了鉴定。结果显示,家蚕基因组中至少存在338个C2H2型锌指蛋白基因,占了全部基因总数的2.3%。与果蝇相比,家蚕的C2H2型锌指蛋白基因的数量和C2H2型锌指结构域的数量都显著增加。分析发现,家蚕中增加的这部分基因主要为含有10个以上C2H2型锌指的基因。除了具有锌指结构域外,部分锌指蛋白还含有其它类型的结构域,被称为锌指偶联结构域,它们能辅助锌指蛋白激活或抑制目标基因表达。分析发现,家蚕中有90个C2H2型锌指蛋白具有锌指偶联结构域。统计显示,家蚕中数量最多的锌指偶联结构域是ZAD结构域,总共有50个ZAD结构域分布于50个家蚕基因中。与其它物种相比,线虫中没有ZAD结构域,人类基因组中也仅有1个该类结构域,而果蝇中含有87个ZAD结构域,说明ZAD结构域的数量在昆虫中特异性地增多了,推测含有ZAD结构域的基因的功能可与昆虫特异的生理代谢过程相关。对家蚕C2H2型锌指蛋白基因在基因组上的分布进行分析,结果显示,有324个基因能定位到染色体上。以“邻近基因间的距离小于500kb”作为串联重复基因的标准,有241个基因能分布到59个串联重复基因簇。最大的一个簇位于第24号染色体上,在650kb的区域内分布了43个C2H2型锌指蛋白基因。大部分基因在染色体上成簇排列,说明串联重复在增加家蚕C2H2型锌指蛋白基因的数量方面起了重要作用。同时,串联重复也导致不同染色体上分布的基因数量极不均匀,家蚕中主要的C2H2型锌指蛋白基因集中在第11号染色体、第15号染色体和第24号染色体上,占了全部C2H2型锌指蛋白基因的38.8%。基因家族分析有助于获得基因的功能线索。结合人、线虫、果蝇的基因,比较分析表明,家蚕的C2H2型锌指蛋白基因能划分为75个基因家族,其中有63个基因家族在进化上是保守的,即家族中至少有一个成员来自于线虫、果蝇或者人。在保守的基因家族中,有32个基因家族的成员只来源于果蝇和家蚕,说明这些家族属于昆虫特异的基因家族。在家蚕中,有12个家族属于家蚕特异的基因家族,再加上特异的单拷贝基因,家蚕中特异的C2H2型锌指蛋白基因的数量共有188个,相比线虫、果蝇、人分别只有120、125、160个特异的锌指蛋白基因,家蚕中特异的锌指蛋白基因数量显著增多。家蚕在吐丝、变态发育等方面具有独特的生物学过程,对这些家蚕特异的锌指蛋白基因的进一步功能研究,可能揭示出这些基因与家蚕特异生物学过程的联系。5龄第3天是家蚕幼虫发育中最为重要的一个时期,此时家蚕开始丝蛋白的大量合成,并为变态作准备。我们利用芯片数据对家蚕C2H2型锌指蛋白基因在该时期不同组织中的表达情况进行了分析。结果显示,有132个基因在这个时期有表达,其中有33个基因在每个组织中都表达,14个基因表现出组织特异性表达。分析发现,表达的C2H2型锌指蛋白基因可能在这个时期发挥着十分重要的作用。例如,对于在所有组织中都表达的基因,BmZFP286基因属于DNJA5家族,可能与这个时期的蛋白折叠有关;BmZFP104属于Ab家族,推测该基因可能的作用是协调这个时期组织或器官的运动;BmZFP160与果蝇的crol基因在序列上高度相似,推测该基因可能已经受到蜕皮激素的诱导,并可能是一个蜕皮激素诱导的早期应答基因。综上所述,本研究对家蚕基因组中的C2H2型锌指蛋白基因进行了鉴定,并通过分析获得了这些基因的基本信息,即染色体分布、基因家族信息和基因表达信息等,这些信息为进一步对家蚕C2H2型锌指蛋白基因进行功能研究打下了基础。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 文献综述
  • 1.1 概述
  • 1.2 模式生物基因组测序
  • 1.2.1 人类基因组计划的提出与实施
  • 1.2.2 昆虫基因组测序进展
  • 1.3 功能基因组学研究
  • 1.3.1 高通量的基因功能注释方法
  • 1.3.2 高通量的基因表达研究方法
  • 1.4 C2H2型锌指蛋白研究
  • 1.4.1 C2H2型锌指蛋白结构和功能
  • 1.4.2 人工锌指蛋白
  • 1.5 家蚕基因组及功能基因组研究进展
  • 1.5.1 家蚕的基因组测序进展
  • 1.5.2 高通量的家蚕基因表达研究
  • 1.5.3 家蚕相关数据库资源
  • 第二章 引言
  • 2.1 家蚕功能基因组研究对蚕业科学发展的作用
  • 2.2 家蚕功能基因组研究对农林业害虫防治的意义
  • 2.3 主要研究内容
  • 2.4 研究思路与技术路线
  • 第三章 家蚕基因功能注释
  • 3.1 材料和方法
  • 3.1.1 序列来源
  • 3.1.2 序列比对
  • 3.1.3 蛋白质结构域预测
  • 3.1.4 基于直系同源数据库的基因功能预测
  • 3.2 结果与分析
  • 3.2.1 基于序列相似性的基因功能预测
  • 3.2.2 基于蛋白质结构域的基因功能预测
  • 3.2.3 基于直系同源数据库的家蚕基因功能预测
  • 3.3 讨论
  • 第四章 家蚕基因芯片数据分析和数据库构建
  • 4.1 材料和方法
  • 4.1.1 基因芯片数据来源
  • 4.1.2 基因芯片数据的特征及数据量
  • 4.1.3 芯片数据处理及分析
  • 4.1.3.1 芯片数据处理
  • 4.1.3.2 芯片数据分析
  • 4.1.4 芯片数据库构建
  • 4.2 结果与分析
  • 4.2.1 家蚕不同组织中表达基因的鉴定
  • 4.2.2 家蚕中的组织特异表达基因分析
  • 4.2.3 组织间共表达基因鉴定
  • 4.2.4 芯片数据可靠性检验
  • 4.2.5 家蚕芯片数据库BmMDB的构建
  • 4.3 讨论
  • 第五章 家蚕基因组数据库构建
  • 5.1 材料和方法
  • 5.1.1 硬件平台
  • 5.1.2 Linux集群系统构建
  • 5.1.3 网络服务器及数据库管理系统
  • 5.1.4 家蚕基因组数据库构建
  • 5.2 结果
  • 5.2.1 家蚕基因组及相关数据资源整理
  • 5.2.2 家蚕基因组数据库的浏览与检索
  • 5.2.3 家蚕基因组数据库中的基因页面
  • 5.2.3 家蚕生物信息分析平台
  • 5.3 讨论
  • 第六章 家蚕C2H2型锌指蛋白的鉴定
  • 6.1 材料和方法
  • 6.1.1 基因数据集
  • 6.1.2 C2H2型锌指蛋白的鉴定
  • 6.1.3 C2H2型锌指蛋白的基因家族分析
  • 6.1.4 进化分析
  • 6.1.5 基因表达分析
  • 6.2 结果与分析
  • 6.2.1 家蚕C2H2型锌指蛋白的鉴定
  • 6.2.2 锌指偶联结构域分析
  • 6.2.3 家蚕C2H2型锌指蛋白基因的染色体分布
  • 6.2.4 家蚕C2H2型锌指蛋白的基因家族分析
  • 6.2.5 家蚕C2H2型锌指蛋白基因的表达谱分析
  • 6.3 讨论
  • 第七章 综合与结论
  • 7.1 家蚕基因功能注释
  • 7.2 家蚕基因芯片数据分析和数据库构建
  • 7.3 家蚕基因组数据库构建
  • 7.4 家蚕C2H2型锌指蛋白的鉴定
  • 参考文献
  • 附录
  • 博士在读期间发表文章和参研课题情况
  • 致谢
  • 相关论文文献

    • [1].福建农林大学破译龙眼基因组[J]. 生物学教学 2017(09)
    • [2].面向用户隐私保护的高效基因比对方案[J]. 计算机应用 2020(01)
    • [3].中国海洋大学发布国际首个软体动物综合基因组数据库[J]. 水产科技情报 2020(06)
    • [4].农作物病原卵菌基因组数据库资源概述[J]. 植物保护 2013(06)
    • [5].四膜虫功能基因组数据库增量更新2016:生活史和减数分裂转录组及磷酸化蛋白组资源建设[J]. 基因组学与应用生物学 2016(06)
    • [6].利用模糊搜索获得柑橘全基因组抗病基因同源序列的初步研究[J]. 东南园艺 2014(05)
    • [7].基于B/S结构的胡杨转化基因组数据库管理信息系统研建分析[J]. 林业资源管理 2014(04)
    • [8].橡胶树HeveaDB基因组数据库平台完成测试[J]. 橡塑技术与装备 2018(13)
    • [9].橡胶树HeveaDB基因组数据库平台完成测试[J]. 世界热带农业信息 2018(07)
    • [10].研发动态[J]. 计算机研究与发展 2014(06)
    • [11].研发动态[J]. 中国生物工程杂志 2012(03)
    • [12].政产学研协作数据库的知识产权保护机制研究——基于上海材料基因组数据库的范式分析[J]. 科技管理研究 2017(10)
    • [13].苹果功能基因组数据库的构建与使用[J]. 园艺学报 2012(11)
    • [14].重要外文学术期刊发表蚕学论文简介[J]. 蚕业科学 2014(04)
    • [15].转座元件在不同人类基因组数据库中分布情况的研究[J]. 基因组学与应用生物学 2015(06)
    • [16].生物信息学相关数据库的应用[J]. 医学信息学杂志 2011(12)
    • [17].动物遗传育种与繁殖的发展与创新[J]. 农业开发与装备 2020(03)
    • [18].水稻全基因组编码抗病基因同源序列分析[J]. 生物信息学 2010(02)
    • [19].螺旋藻基因组中糖苷酶类基因的序列分析[J]. 广东农业科学 2016(12)
    • [20].黑眉锦蛇的肝脏转录组分析[J]. 四川动物 2014(01)
    • [21].真菌基因组数据库概况[J]. 微生物学通报 2008(08)
    • [22].棉花基因组数据库中CPS&KS基因的查找与分析[J]. 江苏农业学报 2016(01)
    • [23].桃已知MADS-box转录因子的生物信息学及花发育表达分析[J]. 核农学报 2015(05)
    • [24].小菜蛾热休克蛋白基因的鉴定及其表达模式分析[J]. 昆虫学报 2013(05)
    • [25].玉米谷胱甘肽过氧化物酶的生物信息学分析[J]. 湖北农业科学 2013(11)
    • [26].福建农林大学科学家破译龙眼基因组[J]. 世界热带农业信息 2017(Z2)
    • [27].复杂疾病风险基因模块识别及其调控机制研究[J]. 中国优生与遗传杂志 2013(10)
    • [28].稻瘟病菌假定几丁质酶家族基因的表达特点[J]. 热带作物学报 2013(08)
    • [29].低温胁迫下高羊茅抑制消减文库的构建与分析[J]. 中国生态农业学报 2009(06)
    • [30].生物催化绿色制造精细化学品进展与实例[J]. 上海应用技术学院学报(自然科学版) 2016(02)

    标签:;  ;  ;  ;  ;  ;  

    家蚕基因组数据库的构建及应用
    下载Doc文档

    猜你喜欢