询问基因组:访问基因组数据库的方法和工具

数千种物种的参考基因组DNA序列现已确定,并储存在免费访问的公共数据库中。这些基因组数据的可用性已经彻底改变了生物学,使人们能够深入了解地球上生命的进化,全基因组筛选表征基因型-表型关系,以及对疾病相关遗传变异的调查,为个性化医疗提供了令人兴奋的新可能性。

图1所示。查询基因组数据库的查询和输出类型。

基因组序列可以从公共数据库完整下载,但访问这些数据的更强大的方式是通过基因组浏览器软件。尽管这些免费程序很复杂,但使用起来相对容易,允许用户快速查询所讨论物种的基因组,访问序列数据,并在其他基因组特征的背景下识别和可视化基因组位点,生成出版质量的数据。

与基因组序列平行的是基因集。现在,基因的定义已经超越了编码蛋白质的基因组DNA片段,而包括了转录物为非编码rna的区域,而非编码rna反过来又调节其他基因的表达。GENCODE和RefSeq等基因集包括预测和专家策划的条目,并在基因组浏览器中以图形方式表示。由ENCODE和modENCODE等大型项目绘制的表观遗传修饰数据也可以使用这种基因组浏览器进行可视化。

Ensembl是一个涵盖后生动物物种的基因组数据库和浏览器家族,具有专家策划的VEGA基因注释。集合基因组涵盖小型后生动物、植物、真菌、原生生物和细菌。来自国家生物技术信息中心(NCBI)的地图查看器浏览器在NCBI序列条目的背景下提供了基因组的图形概述。加州大学圣克鲁斯分校(UCSC)基因组浏览器是一个流行和灵活的工具,集成了广泛的功能和输出模式。其他独立的浏览器包括集成基因组浏览器(IGB)和集成基因组浏览器(IGV)。所有这些浏览器都允许用户上传和显示实验数据以及参考基因组。

使用这些浏览器,可以使用多种查询类型访问基因组数据库(图1)。搜索可以基于已知基因,使用它们的名称、符号或标识码(id),或DNA分子(例如cDNA克隆)、蛋白质编码和非编码rna或蛋白质的id。搜索也可以基于核型带型模式(例如17p13.1)和染色体坐标(例如13:72708357-72727687)。

不同长度的核苷酸序列可以用作查询,使用BLAST或BLAT等算法识别所选物种基因组上与查询序列匹配的区域;启动此类搜索的工具已集成到大多数基因组浏览器中。

搜索基因组序列以识别匹配基序(可能包括序列退化和变长空间)和基于矩阵的模式(反映基序每个位置中碱基出现的不同频率)的位点需要更多的专业软件,例如EMBOSS, MEME和RSAT套件的例程。

图2所示。文本中描述的资源和工具的网址。

多种基因组查询也可以使用诸如Ensembl的BioMart等设备进行。更复杂的查询可以使用UCSC的Table Browser执行,分析管道可以使用Taverna和Galaxy等软件建立。后者包括用于下一代测序(NGS)项目的常规程序,允许上传和绘制数以亿计的实验数据,以便与基因组进行比对。

对于具有编程经验的用户,诸如Bio*工具包和Bioconductor之类的库以及适用于Perl, Python, R和Java等流行语言的应用程序编程接口(api),允许查询和检索基因组数据;来自Ensembl的REpresentational State Transfer (RESTful) API支持使用任何语言进行数据访问。

这些免费的资源(图2)是分子生物学家工具箱中有价值和强大的补充,允许全面访问基因组革命的成果。

詹姆斯·r·a·哈钦斯
法国蒙彼利埃大学人类遗传学研究所(IGH

出版

基因组数据库搜索。
小哈钦斯
方法《Mol Biol》,2017

脸谱网 推特 linkedin 邮件 脸谱网 推特 linkedin 邮件

留言回复