贺梦琪:基于MeSH的生物医学知识图谱构建及其在组学数据分析的应用论文

贺梦琪:基于MeSH的生物医学知识图谱构建及其在组学数据分析的应用论文

本文主要研究内容

作者贺梦琪(2019)在《基于MeSH的生物医学知识图谱构建及其在组学数据分析的应用》一文中研究指出:二代测序、生物质谱等高通量实验技术的发展和应用,产生了海量的组学数据(基因组学、转录组学和蛋白质组学等),生物医学研究已不可阻挡的迈入了大数据时代。对这些组学数据的解读,可以帮助人们理解生命活动的基本原理,揭示疾病的发生发展原因。生命组学数据极大地扩展了人类对自身生理和病理的认识,但是生命组学数据的分析却面临着严峻挑战。组学数据分析的首要任务就是从整体上对基因进行注释,了解基因参与的生物学过程和基因的功能,掌握基因与生理、病理过程的关系等。通量化的基因注释对识别基因功能,研究基因的表达调控机制,分析基因产物之间的相互关系具有重要的意义。为了对基因进行注释,人们结合各自研究领域,采用专家方式对文献中的信息进行判读和整理,构建了GOA、KEGG、CTD、OMIM等知识库。人工构建的知识库为组学数据注释分析提供了有效的资源,但仍存在领域知识覆盖不全面和更新不及时等问题。生物医学文献数量大,有限的人工使得知识库只能针对特定生物医学主题领域构建,在症状和体征、行为和行为机制等领域仍缺少相应的注释资源。另外,生物医学文献的快速增长,也给专家方式的知识库更新带来了困难。注释数据库以上的知识覆盖不全面、更新不及时等局限也影响了依赖它们的DAVID、Metascape等基因注释工具的实用性。另一方面,随着生物医学文献的爆发式增长,凭借人工方法在数目庞大的新发表文献中发现和获得信息变得更加困难。知识图谱技术提供了一种从海量文本中抽取结构化知识的手段,为知识的提取和展示提供了方便。随着实体识别等知识图谱构建方法的发展,人们建立了结构化、标准化的医学主题词表(MeSH),MeSH涵盖了16个大的生物医学领域,包含两万多个主题词;发展了自动化的文献挖掘工具PubTator,PubTator整合了GenNorm、tmChem等多种实体识别工具。以上工作为生物医学领域自动化的知识图谱构建,以及通量化的基因注释奠定了基础。针对基因数据注释体系和生物医学知识图谱构建的以上研究现状,本文开展了以下两项工作:首先,本文利用MeSH发展了一种基于文献的知识图谱构建方法,并利用该方法构建了一个覆盖多个生物医学领域的知识图谱。本文首先收集了PubMed文献元数据并从中提取了文献和MeSH实体的关联关系,收集了PubTator实体关联数据并从中提取了文献和基因的关联关系。然后,通过整合MeSH实体-文献关联以及基因-文献关联得到了基因-MeSH实体关联,并基于共现频数、卡方检验和标准点互信息等方法对整合的关联进行筛选。进一步,本文通过InParanoid数据库中的物种间直系同源基因信息对知识图谱进行扩充。最后,本文得到了包含11个物种,覆盖16个生物医学领域11,629个MeSH实体,80,756个基因和2,676,776个基因-MeSH实体关联的生物医学知识图谱。本文对细胞类型知识图谱进行了分析,发现白细胞(Leukocytes)、淋巴细胞(Lymphocytes)、巨噬细胞(Macrophages)和红细胞(Erythrocytes)等细胞类型同MeSH本体具有较高的关联。特别的,本文还进一步对免疫抑制相关基因进行了系统的梳理,收集了995个高可信的免疫抑制基因,提供了免疫抑制基因相关疾病、药物和SNP的信息,研发了免疫抑制领域首个在线的基因注释数据库HisgAtlas。然后,本文基于构建的知识图谱,开发了一个基于MeSH本体和生物医学文献的基因数据注释和分析体系MORE。针对提交的基因列表数据,MORE使用超几何分布检验筛选显著富集的MeSH条目,并提供表格视图、树状视图和DAG视图三种可视化的呈现方式,使用户对目标基因挑选更有针对性。MORE还提供了基因注释的文献支持证据页面,该页面展示了基因和MeSH实体的关联信息和文献支撑证据。目前,MORE支持16种本体,可对包括人类等11个物种的组学数据进行基因注释和富集分析。MORE对大鼠热量限制相关基因组学数据的分析表明相较于GO注释体系,MORE可以从更多角度为用户提供实验线索。MORE能发现热量限制影响的神经元细胞(Neuron)、神经胶质细胞(Neuroglia)和星状胶质细胞(Astrocytes)等细胞类型;应用热量限制治疗的肝癌(Liver Neoplasms,Experimental)、乳腺癌(Mammary Neoplasms,Experimental)和糖尿病(Diabetes Mellitus)等疾病;热量摄入相关的葡萄糖胺(Glucosamine)、半乳糖(Galactose)和淀粉(Starch)等糖类物质以及组织培养技术(Tissue Culture Techniques)等实验方法。另外,该体系具备后台数据的自动更新功能。数据下载模块通过PubMed和PubTator提供的API接口定期从数据源下载所需数据,并将下载的数据集传送给数据处理模块。数据处理模块将处理结果写入网站后台数据库。MORE网站目前提供了2018年6月1日和2019年3月1日更新的两个版本。本文知识图谱构建和基因注释分析体系两项工作提升了组学数据基因注释的范围,实现了对新发表文献信息的利用,将促进生命组学数据与文献信息的融合,加快生命组学数据知识发现的速度。

Abstract

er dai ce xu 、sheng wu zhi pu deng gao tong liang shi yan ji shu de fa zhan he ying yong ,chan sheng le hai liang de zu xue shu ju (ji yin zu xue 、zhuai lu zu xue he dan bai zhi zu xue deng ),sheng wu yi xue yan jiu yi bu ke zu dang de mai ru le da shu ju shi dai 。dui zhe xie zu xue shu ju de jie dou ,ke yi bang zhu ren men li jie sheng ming huo dong de ji ben yuan li ,jie shi ji bing de fa sheng fa zhan yuan yin 。sheng ming zu xue shu ju ji da de kuo zhan le ren lei dui zi shen sheng li he bing li de ren shi ,dan shi sheng ming zu xue shu ju de fen xi que mian lin zhao yan jun tiao zhan 。zu xue shu ju fen xi de shou yao ren wu jiu shi cong zheng ti shang dui ji yin jin hang zhu shi ,le jie ji yin can yu de sheng wu xue guo cheng he ji yin de gong neng ,zhang wo ji yin yu sheng li 、bing li guo cheng de guan ji deng 。tong liang hua de ji yin zhu shi dui shi bie ji yin gong neng ,yan jiu ji yin de biao da diao kong ji zhi ,fen xi ji yin chan wu zhi jian de xiang hu guan ji ju you chong yao de yi yi 。wei le dui ji yin jin hang zhu shi ,ren men jie ge ge zi yan jiu ling yu ,cai yong zhuan jia fang shi dui wen suo zhong de xin xi jin hang pan dou he zheng li ,gou jian le GOA、KEGG、CTD、OMIMdeng zhi shi ku 。ren gong gou jian de zhi shi ku wei zu xue shu ju zhu shi fen xi di gong le you xiao de zi yuan ,dan reng cun zai ling yu zhi shi fu gai bu quan mian he geng xin bu ji shi deng wen ti 。sheng wu yi xue wen suo shu liang da ,you xian de ren gong shi de zhi shi ku zhi neng zhen dui te ding sheng wu yi xue zhu ti ling yu gou jian ,zai zheng zhuang he ti zheng 、hang wei he hang wei ji zhi deng ling yu reng que shao xiang ying de zhu shi zi yuan 。ling wai ,sheng wu yi xue wen suo de kuai su zeng chang ,ye gei zhuan jia fang shi de zhi shi ku geng xin dai lai le kun nan 。zhu shi shu ju ku yi shang de zhi shi fu gai bu quan mian 、geng xin bu ji shi deng ju xian ye ying xiang le yi lai ta men de DAVID、Metascapedeng ji yin zhu shi gong ju de shi yong xing 。ling yi fang mian ,sui zhao sheng wu yi xue wen suo de bao fa shi zeng chang ,ping jie ren gong fang fa zai shu mu pang da de xin fa biao wen suo zhong fa xian he huo de xin xi bian de geng jia kun nan 。zhi shi tu pu ji shu di gong le yi chong cong hai liang wen ben zhong chou qu jie gou hua zhi shi de shou duan ,wei zhi shi de di qu he zhan shi di gong le fang bian 。sui zhao shi ti shi bie deng zhi shi tu pu gou jian fang fa de fa zhan ,ren men jian li le jie gou hua 、biao zhun hua de yi xue zhu ti ci biao (MeSH),MeSHhan gai le 16ge da de sheng wu yi xue ling yu ,bao han liang mo duo ge zhu ti ci ;fa zhan le zi dong hua de wen suo wa jue gong ju PubTator,PubTatorzheng ge le GenNorm、tmChemdeng duo chong shi ti shi bie gong ju 。yi shang gong zuo wei sheng wu yi xue ling yu zi dong hua de zhi shi tu pu gou jian ,yi ji tong liang hua de ji yin zhu shi dian ding le ji chu 。zhen dui ji yin shu ju zhu shi ti ji he sheng wu yi xue zhi shi tu pu gou jian de yi shang yan jiu xian zhuang ,ben wen kai zhan le yi xia liang xiang gong zuo :shou xian ,ben wen li yong MeSHfa zhan le yi chong ji yu wen suo de zhi shi tu pu gou jian fang fa ,bing li yong gai fang fa gou jian le yi ge fu gai duo ge sheng wu yi xue ling yu de zhi shi tu pu 。ben wen shou xian shou ji le PubMedwen suo yuan shu ju bing cong zhong di qu le wen suo he MeSHshi ti de guan lian guan ji ,shou ji le PubTatorshi ti guan lian shu ju bing cong zhong di qu le wen suo he ji yin de guan lian guan ji 。ran hou ,tong guo zheng ge MeSHshi ti -wen suo guan lian yi ji ji yin -wen suo guan lian de dao le ji yin -MeSHshi ti guan lian ,bing ji yu gong xian pin shu 、ka fang jian yan he biao zhun dian hu xin xi deng fang fa dui zheng ge de guan lian jin hang shai shua 。jin yi bu ,ben wen tong guo InParanoidshu ju ku zhong de wu chong jian zhi ji tong yuan ji yin xin xi dui zhi shi tu pu jin hang kuo chong 。zui hou ,ben wen de dao le bao han 11ge wu chong ,fu gai 16ge sheng wu yi xue ling yu 11,629ge MeSHshi ti ,80,756ge ji yin he 2,676,776ge ji yin -MeSHshi ti guan lian de sheng wu yi xue zhi shi tu pu 。ben wen dui xi bao lei xing zhi shi tu pu jin hang le fen xi ,fa xian bai xi bao (Leukocytes)、lin ba xi bao (Lymphocytes)、ju shi xi bao (Macrophages)he gong xi bao (Erythrocytes)deng xi bao lei xing tong MeSHben ti ju you jiao gao de guan lian 。te bie de ,ben wen hai jin yi bu dui mian yi yi zhi xiang guan ji yin jin hang le ji tong de shu li ,shou ji le 995ge gao ke xin de mian yi yi zhi ji yin ,di gong le mian yi yi zhi ji yin xiang guan ji bing 、yao wu he SNPde xin xi ,yan fa le mian yi yi zhi ling yu shou ge zai xian de ji yin zhu shi shu ju ku HisgAtlas。ran hou ,ben wen ji yu gou jian de zhi shi tu pu ,kai fa le yi ge ji yu MeSHben ti he sheng wu yi xue wen suo de ji yin shu ju zhu shi he fen xi ti ji MORE。zhen dui di jiao de ji yin lie biao shu ju ,MOREshi yong chao ji he fen bu jian yan shai shua xian zhe fu ji de MeSHtiao mu ,bing di gong biao ge shi tu 、shu zhuang shi tu he DAGshi tu san chong ke shi hua de cheng xian fang shi ,shi yong hu dui mu biao ji yin tiao shua geng you zhen dui xing 。MOREhai di gong le ji yin zhu shi de wen suo zhi chi zheng ju xie mian ,gai xie mian zhan shi le ji yin he MeSHshi ti de guan lian xin xi he wen suo zhi cheng zheng ju 。mu qian ,MOREzhi chi 16chong ben ti ,ke dui bao gua ren lei deng 11ge wu chong de zu xue shu ju jin hang ji yin zhu shi he fu ji fen xi 。MOREdui da shu re liang xian zhi xiang guan ji yin zu xue shu ju de fen xi biao ming xiang jiao yu GOzhu shi ti ji ,MOREke yi cong geng duo jiao du wei yong hu di gong shi yan xian suo 。MOREneng fa xian re liang xian zhi ying xiang de shen jing yuan xi bao (Neuron)、shen jing jiao zhi xi bao (Neuroglia)he xing zhuang jiao zhi xi bao (Astrocytes)deng xi bao lei xing ;ying yong re liang xian zhi zhi liao de gan ai (Liver Neoplasms,Experimental)、ru xian ai (Mammary Neoplasms,Experimental)he tang niao bing (Diabetes Mellitus)deng ji bing ;re liang she ru xiang guan de pu tao tang an (Glucosamine)、ban ru tang (Galactose)he dian fen (Starch)deng tang lei wu zhi yi ji zu zhi pei yang ji shu (Tissue Culture Techniques)deng shi yan fang fa 。ling wai ,gai ti ji ju bei hou tai shu ju de zi dong geng xin gong neng 。shu ju xia zai mo kuai tong guo PubMedhe PubTatordi gong de APIjie kou ding ji cong shu ju yuan xia zai suo xu shu ju ,bing jiang xia zai de shu ju ji chuan song gei shu ju chu li mo kuai 。shu ju chu li mo kuai jiang chu li jie guo xie ru wang zhan hou tai shu ju ku 。MOREwang zhan mu qian di gong le 2018nian 6yue 1ri he 2019nian 3yue 1ri geng xin de liang ge ban ben 。ben wen zhi shi tu pu gou jian he ji yin zhu shi fen xi ti ji liang xiang gong zuo di sheng le zu xue shu ju ji yin zhu shi de fan wei ,shi xian le dui xin fa biao wen suo xin xi de li yong ,jiang cu jin sheng ming zu xue shu ju yu wen suo xin xi de rong ge ,jia kuai sheng ming zu xue shu ju zhi shi fa xian de su du 。

论文参考文献

论文详细介绍

论文作者分别是来自军事科学院的贺梦琪,发表于刊物军事科学院2019-09-02论文,是一篇关于生物信息学论文,知识图谱论文,医学主题词表论文,富集分析论文,军事科学院2019-09-02论文的文章。本文可供学术参考使用,各位学者可以免费参考阅读下载,文章观点不代表本站观点,资料来自军事科学院2019-09-02论文网站,若本站收录的文献无意侵犯了您的著作版权,请联系我们删除。

标签:;  ;  ;  ;  ;  

贺梦琪:基于MeSH的生物医学知识图谱构建及其在组学数据分析的应用论文
下载Doc文档

猜你喜欢