询问基因组:访问基因组数据库的方法和工具
数千种物种的参考基因组DNA序列现已确定,并储存在免费访问的公共数据库中。这些基因组数据的可用性已经彻底改变了生物学,使人们能够深入了解地球上生命的进化,全基因组筛选表征基因型-表型关系,以及对疾病相关遗传变异的调查,为个性化医疗提供了令人兴奋的新可能性。
基因组序列可以从公共数据库完整下载,但访问这些数据的更强大的方式是通过基因组浏览器软件。尽管这些免费程序很复杂,但使用起来相对容易,允许用户快速查询所讨论物种的基因组,访问序列数据,并在其他基因组特征的背景下识别和可视化基因组位点,生成出版质量的数据。
与基因组序列平行的是基因集。现在,基因的定义已经超越了编码蛋白质的基因组DNA片段,而包括了转录物为非编码rna的区域,而非编码rna反过来又调节其他基因的表达。GENCODE和RefSeq等基因集包括预测和专家策划的条目,并在基因组浏览器中以图形方式表示。由ENCODE和modENCODE等大型项目绘制的表观遗传修饰数据也可以使用这种基因组浏览器进行可视化。
Ensembl是一个涵盖后生动物物种的基因组数据库和浏览器家族,具有专家策划的VEGA基因注释。集合基因组涵盖小型后生动物、植物、真菌、原生生物和细菌。来自国家生物技术信息中心(NCBI)的地图查看器浏览器在NCBI序列条目的背景下提供了基因组的图形概述。加州大学圣克鲁斯分校(UCSC)基因组浏览器是一个流行和灵活的工具,集成了广泛的功能和输出模式。其他独立的浏览器包括集成基因组浏览器(IGB)和集成基因组浏览器(IGV)。所有这些浏览器都允许用户上传和显示实验数据以及参考基因组。
使用这些浏览器,可以使用多种查询类型访问基因组数据库(图1)。搜索可以基于已知基因,使用它们的名称、符号或标识码(id),或DNA分子(例如cDNA克隆)、蛋白质编码和非编码rna或蛋白质的id。搜索也可以基于核型带型模式(例如17p13.1)和染色体坐标(例如13:72708357-72727687)。
不同长度的核苷酸序列可以用作查询,使用BLAST或BLAT等算法识别所选物种基因组上与查询序列匹配的区域;启动此类搜索的工具已集成到大多数基因组浏览器中。
搜索基因组序列以识别匹配基序(可能包括序列退化和变长空间)和基于矩阵的模式(反映基序每个位置中碱基出现的不同频率)的位点需要更多的专业软件,例如EMBOSS, MEME和RSAT套件的例程。
多种基因组查询也可以使用诸如Ensembl的BioMart等设备进行。更复杂的查询可以使用UCSC的Table Browser执行,分析管道可以使用Taverna和Galaxy等软件建立。后者包括用于下一代测序(NGS)项目的常规程序,允许上传和绘制数以亿计的实验数据,以便与基因组进行比对。
对于具有编程经验的用户,诸如Bio*工具包和Bioconductor之类的库以及适用于Perl, Python, R和Java等流行语言的应用程序编程接口(api),允许查询和检索基因组数据;来自Ensembl的REpresentational State Transfer (RESTful) API支持使用任何语言进行数据访问。
这些免费的资源(图2)是分子生物学家工具箱中有价值和强大的补充,允许全面访问基因组革命的成果。
詹姆斯·r·a·哈钦斯
法国蒙彼利埃大学人类遗传学研究所(IGH
出版
基因组数据库搜索。
小哈钦斯
方法《Mol Biol》,2017
相关文章:
表观遗传表型多样化有助于动物适应…越来越多的证据表明,表观遗传表型变异有助于环境适应、物种形成和进化。表型的表观遗传变化是由基因表达差异引起的,而不是由基因表达差异引起的。 | |
ACTN3基因真的是马的“速度基因”吗?人类编码α-肌动蛋白-3的ACTN3基因被认为是决定短期或长期运动(短跑或耐力)倾向的关键因素。此外,在… | |
深入分子分析了解生物学…阿尔茨海默病(AD)是一种复杂的多基因疾病,具有遗传、细胞、病理和临床异质性。高通量测序和组学技术的进步加速了个性化医疗的发展。人类…… | |
经济衰退前后可卡因使用者的死亡风险这项研究的目标是意大利北部的居民,他们在1982年至2016年期间转向一家公共治疗中心治疗可卡因。其目的是估计死亡风险,以及… | |
孤雌生殖对科学和自然的入侵……大理石纹小龙虾或Marmorkrebs, Procambarus virginalis(图1A),是唯一的专一性孤雌生殖的十足甲壳类动物。1995年在德国水族贸易中被发现。发表了近300篇文章,… | |
一些自制的简易工具及其在处理…黑腹果蝇是一种广泛应用于生物学研究和生物学教育的模式生物。官方manbetx手机版由于苍蝇会飞,转移成蝇是一种常见但困难的做法。一套自制的…… |
留言回复
你一定是登录发表评论。