基因分析数据集的低成本富集:代入和电子健康记录链接

人类基因组由30亿个碱基对组成,这些碱基对由腺嘌呤(A)、胸腺嘧啶(T)、胞嘧啶(C)或鸟嘌呤(G)组成。DNA测序是读取和记录基因组中每个碱基上的核苷酸的过程。任何两个人的DNA序列都非常相似,但每个人的基因组中平均有1000万个基因变异,这些变异创造了一个独特的DNA模式。这些遗传差异(以及环境影响)导致了身高、血压或血糖水平等特征的变化。

图1所示。

全基因组关联研究(GWAS)旨在识别影响感兴趣性状的遗传变异,帮助我们理解遗传“接线图”(图1)。这提高了我们仅基于遗传信息预测性状的能力,这可以导致早期疾病诊断和发现新的药物靶点,为开发新的治疗方法铺平道路。

GWAS通常研究单核苷酸多态性(SNPs),这是一种遗传变异,在一个碱基上,不同的人有不同的核苷酸。由于全基因组测序的高成本,这些snp通常是通过基因分型确定的,该方法查询已知含有snp的基因组的一小部分。然而,基因分型只揭示了所有snp的一小部分,并且遗漏了许多可能是性状变异的重要驱动因素的罕见变异。使用一种叫做imputation的统计方法,我们可以填补其中的一些空白,利用这样一个事实,即彼此接近的变体往往会被一起遗传(图2)。

在这篇文章中,我们介绍了苏格兰一代:苏格兰家庭健康研究(GS:SFHS),这是一个基于家庭的人口队列,包含来自苏格兰约24,000名成年志愿者的DNA、生物样本、社会人口统计学、心理和临床数据。基因分型对2万多个人进行了测试,测量了60.5万个snp。在Haplotype Reference Consortium数据集的帮助下进行了插入,产生了2410万个高可信度的遗传变异用于分析,可查询的变异数量增加了40倍。

我们在招募期间对所有参与者测量的一系列定量特征进行了GWAS。我们重复了已知的关联,但也揭示了新的发现,主要是在0.08-1%的等位基因频率范围内估算的罕见变异。

图2所示。

我们还提出了一个小型(2077人)的血清尿酸水平GWAS的原理证明,该GWAS是由苏格兰国家卫生服务为临床目的而测量的,通过链接到GS:SFHS参与者的电子健康记录(EHRs)。在这个GWAS中,我们在SLC2A9基因座,编码一种完善的尿酸转运蛋白。这是一个令人鼓舞的结果,目前正在努力从所有GS:SFHS参与者的电子健康记录中获取和整理一系列其他临床相关特征的表型数据。

总之,这项研究证明了利用统计方法和电子病历来提高基因研究能力的价值,而不需要额外的昂贵的实验室实验。它还揭示了新的遗传关联,可能有助于预测个人患高血压或糖尿病等某些疾病的风险。

河伊
爱丁堡大学遗传与分子医学研究所MRC人类遗传学组,
联合王国

出版

在20,032代苏格兰参与者中进行全基因组关联研究官方manbetx手机版的单倍型研究联盟imputation探索。
Nagy R, Boutin TS, Marten J, Huffman JE, Kerr SM, Campbell A, Evenden L, Gibson J, Amador C, Howard DM, Navarro P, Morris A, Deary IJ, hockking LJ, Padmanabhan S, Smith BH, Joshi P, Wilson JF, Hastie ND, Wright AF, McIntosh AM, Porteous DJ, Haley CS, Vitart V, Hayward C
2017年3月7日

脸谱网 推特 linkedin 邮件 脸谱网 推特 linkedin 邮件

留言回复