肺癌关联的基因多态位点的识别与预测模型的构建

肺癌关联的基因多态位点的识别与预测模型的构建

论文摘要

肺癌是全球范围内最为常见的恶性肿瘤,是一种由多种因素共同作用导致的肿瘤类疾病。其中,公认的最主要因素就是吸烟,但是仅有10-15%的吸烟者最后发展为肺癌,说明个体遗传因素在肺癌的发生和发展中发挥着不容忽视的作用。我们从基因多态位点与肺癌易感性的研究报道中,经一系列筛选,选取了24个肺癌关联的单核苷酸多态(SNP)位点。通过SNPscanTM基因分型技术,基于病例-对照研究的方法,对中国汉族人群中的1597例肺癌患者和2040例性别、年龄与之相匹配的健康对照进行功能和标签SNP位点的肺癌易感性分析。随后选取与肺癌风险显著关联的SNP位点以及吸烟状态、年龄和性别因素,运用Logistic逐步向后回归法进行变量筛选,检测交互作用和分析风险因素累积效应,从而构建肺癌风险预测模型,并用基于受试者操作特征(ROC)曲线下面积(AUC)来评价模型的预测能力。同时,通过把总数据平均分为实验数据和验证数据两个部分,以准确率、敏感度和特异度评价模型的预测效果。多因素降维法(MDR)加以分析和验证交互作用和可靠性。结果显示,Logistic逐步向后回归筛选出8个因素变量,其中包括性别、吸烟和6个SNP位点(TERT基因上的rs2736098和rs2853668、BAG6基因上的rs2242656、MMP2基因上的rs243865、CHEK2基因上的rs2236141以及XRCC6基因上的rs2267437)。其中TERT-rs2736098、BAG6-rs2242656、MMP2-rs243865、 CHEK2-rs2236141和KRCC6-rs2267437位点为隐性遗传模型;TERT-rs2853668位点为显性遗传模型。TERT-rs2736098和CHEK2-rs2236141突变纯合子个体的肺癌风险显著提高(rs2736098(TT)校正OR(95%CI)=1.25(1.01,1.54),P=0.038;rs2236141(TT):校正oR(95%CI)=2.03(1.31,3.16),P=0.002). TERT-rs2853668野生等位型携带者以及BAG6-rs2242656、MMP2-rs243865和XRCC6-rs2267437位点野生纯合子个体的患病风险率显著提高(rs2853668(TT+GT):校正OR(95%CI)=1.20(1.04,1.40),P=0.017;rs2242656(AA)校正OR(95%CI)=1.22(1.04,1.43),P=0.017;rs243865(CC):校正OR(95%CI)=1.36(1.13,1.64),P=0.001;rs2267437(CC):校正OR(95%CI)=1.28(1.10,1.50),P=0.002)。基因-基因间和基因-环境间没发现显著的两因素交互作用,6个SNPs位点分别与肺癌发病独立相关,且统计学上有显著性(P<0.05)。6个SNPs口吸烟因素累加产生肺癌风险关联的累积效应,个体携带5个或更多肺癌风险因素时,其患肺癌的风险是携带1个或更少者的4.5倍(校正OR(95%CI)=4.50(2.93,6.91),P=5.8×10-12)。性别、吸烟和6个SNP位点构成的环境-遗传肺癌风险预测模型的预测效果最佳(AUC(95%CI)=0.63(0.61,0.65),P=2.2×10-38),显著优于人口学模型(AUC(95%CI)=0.51(0.49,0.53),P=0.307)、遗传变异模型(AUC(95%CI)=0.56(0.54,0.58),P=2.4×10-10)和非遗传模型(AUC(95%CI)=0.60(0.58,0.62), P=4.9×10-25)。这8个因素,在实验数据中预测指标为:准确率为60.97%,敏感度为44.68%,特异度为73.73%;在验证数据中预测指标为:准确率为61.77%,敏感度为36.84%,特异度为81.27%;总数据中预测指标为:准确率为61.37%,敏感度为40.76%,特异度为77.50%。MDR分析同时验证了我们模型的可靠性。本研究,在中国汉族人群中,初步建立了肺癌风险的环境-遗传预测模型,该模型具有一定的肺癌风险预测能力,对肺癌的预防和诊断工作有辅助作用。因此,更多肺癌关联的基因多态位点有待识别,以完善肺癌风险预测模型。

论文目录

  • 摘要
  • Abstract
  • 缩略词
  • 一 引言
  • 二 材料与方法
  • 2.1 技术流程总览
  • 2.2 研究对象
  • 2.3 方法
  • 2.3.1 流行病学调查和资料整理统计
  • 2.3.2 SNP的来源
  • 2.3.3 SNP的分型
  • 2.4 SNP的选择
  • 2.4.1 分型成功率
  • 2.4.2 哈迪-温伯格平衡检验
  • 2.4.3 连锁不平衡检验
  • 2.5 基因多态单位点及遗传模型比值比分析
  • 2.5.1 比值比
  • 2.5.2 Logistic回归模型的一般形式
  • 2.5.3 Logistic回归系数的意义
  • 2.6 肺癌预测模型的变量筛选与构建
  • 2.6.1 基于最大似然估计的向后逐步Logistic回归模型
  • 2.6.2 多重共线性检验
  • 2.6.3 交互作用
  • 2.6.3.1 Logistic回归乘积项法
  • 2.6.3.2 信息熵交互图和系统树法
  • 2.6.4 多因素降维法模型
  • 2.7 构建的模型种类
  • 2.8 模型的评价
  • 三 结果
  • 3.1 研究对象的基本资料
  • 3.2 SNP位点选择和评价
  • 3.3 基因多态位点和肺癌遗传易感性分析
  • 3.3.1 单位点等位基因分析
  • 3.3.2 遗传模型分析
  • 3.4 构建肺癌风险预测模型
  • 3.4.1 基于最大似然估计的向后逐步Logistic回归
  • 3.4.2 多重共线性
  • 3.4.3 交互作用
  • 3.4.3.1 基因-基因交互作用
  • 3.4.3.2 环境-基因交互作用
  • 3.4.3.3 主效应与交互效应
  • 3.4.3.4 聚类系统树
  • 3.4.4 NSCLC风险关联因素的累积效应
  • 3.5 模型评价与验证
  • 3.5.1 ROC曲线分析
  • 3.5.2 实验数据与验证数据评价
  • 3.5.3 MDR模型验证
  • 四 讨论
  • 4.1 基因多态位点与肺癌易感性的关系
  • 4.1.1 TERT基因
  • 4.1.2 BAG6基因
  • 4.1.3 MMP2基因
  • 4.1.4 CHEK2基因
  • 4.1.5 XRCC6基因
  • 4.2 肺癌风险预测模型构建的意义
  • 4.2.1 交互作用的影响
  • 4.2.2 单核苷酸多态性的预测价值
  • 4.3 研究的局限性
  • 五 结论
  • 参考文献
  • 附录一
  • 综述:肺癌预测模型构建的研究进展
  • 参考文献
  • 附录二
  • 肺癌患者调查随访表
  • 硕士期间发表文章
  • 致谢
  • 相关论文文献

    • [1].STK11致病基因突变致Peutz-Jeghers综合征患儿家系分析[J]. 临床儿科杂志 2013(04)
    • [2].中国人群常见的药物代谢相关基因多态位点及其检测方法[J]. 分子诊断与治疗杂志 2017(05)
    • [3].马MC1R基因多态位点与毛色相关性分析[J]. 畜牧兽医学报 2018(08)
    • [4].生长分化因子-15基因多态位点+157A/T与不稳定型心绞痛的相关性研究[J]. 临床和实验医学杂志 2014(03)
    • [5].中国南方汉族人群中SCN5A基因多态位点和病态窦房结综合征的关联性[J]. 心脏杂志 2009(02)
    • [6].miR-196a-2基因多态位点rs11614913与乳腺癌易感性关系的Meta分析[J]. 中国肿瘤 2016(11)
    • [7].多巴胺受体基因多态性及其与鸡繁殖性状的相关性[J]. 西南农业学报 2016(07)
    • [8].分拣蛋白受体1基因多态位点rs1133174与中国汉族遗忘型轻度认知损伤风险的关联研究[J]. 南京医科大学学报(自然科学版) 2016(03)
    • [9].阿司匹林抵抗与环氧合酶1基因多态性关联研究[J]. 中国卫生检验杂志 2014(13)
    • [10].QKI基因多态位点与四川地区汉族人群冠心病的相关性分析[J]. 实用医院临床杂志 2016(06)
    • [11].miRNA-196a-2基因多态位点rs11614913与胃癌易感性的关联研究[J]. 广州医学院学报 2013(03)
    • [12].鸭FTO基因多态位点筛选和生物信息学分析[J]. 基因组学与应用生物学 2016(09)
    • [13].中国人GGCX G3261A基因多态性分析[J]. 江苏医药 2010(18)
    • [14].新疆哈萨克族人群中扩张型心肌病与核纤层蛋白A基因变异的关系[J]. 中国循环杂志 2015(11)
    • [15].解析心钠素基因多态性与运动能力的研究进程[J]. 南京体育学院学报(自然科学版) 2009(02)

    标签:;  ;  ;  ;  ;  ;  

    肺癌关联的基因多态位点的识别与预测模型的构建
    下载Doc文档

    猜你喜欢