前沿的生物信息学:授权基因组学专业知识的发展

需要深入了解微生物的功能,以解决当今社会面临的许多具有挑战性的问题,例如了解如何根除传染病和减缓气候变化。答案就藏在他们的基因密码里。在过去十年中,下一代测序(NGS)技术的进步有望通过获取生物的DNA来更好地了解生物世界。然而,在分析和解释测序数据时,存在显著的瓶颈,例如,处理大量测序数据所需的计算资源和专业知识。为了帮助解决这些问题,洛斯阿拉莫斯国家实验室和海军医学研究中心的科学家们开发了EDGE生物信息学(官方manbetx手机版Empower的D的发展GenomicsE专业知识),旨在通过直观的基于web的界面提供复杂的算法,从而降低更好地理解NGS数据的障碍。

图1所示。EDGE生物信息学和所有可用模块的屏幕截图。EDGE生物信息学的不同工作流程和可用选项在这里显示为可折叠的选项卡,用户可以根据分析需要展开并打开或关闭。左上角的菜单显示了通过网页运行EDGE管道或QIIME的选项。“我的项目列表”显示了各个框中的项目列表,其中包含项目名称、日期和启动时间。绿色日期/时间戳和复选标记表示项目已完成运行。蓝色框表示已打开所选项目的结果页。论文的主要部分简要描述了工作流程。

EDGE生物信息学将多种工具和算法结合到标准化工作流程中。它允许没有计算专业知识的用户通过简单的点和点击来分析复杂的NGS数据集。用户只需要输入原始读数(直接从测序器),并选择一个或多个可用的定制设计工作流,以实现稳健和可重复的分析。EDGE的当前版本包括七个工作流,以适应各种用例(图1)。工作流包括(1)预处理,用于去除低质量或不需要的数据(例如宿主序列或已知污染);新创装配和注释;用于从原始reads中重建基因组,(iii)Reference-Based分析,用于将reads/contigs与已知基因组进行比较,(iv)分类法的分类根据已知生物的reads/contigs提供样本的分类概况,(v)系统发育分析将样本置于同一物种的已测序成员的系统发育背景中。(六世)基因家族分析搜索有毒和耐药基因,以及(vii)) PCR引物分析检查引物对的有效性或设计引物对新创.EDGE最近添加的其他功能包括纳入样本元数据(例如,日期、地理位置、患者症状等)以及比较多个样本之间的分类概况的能力。

EDGE提供各种静态和交互式输出,以PDF报告、数据表和出版物质量数字的形式呈现,以便用户可以深入研究结果(图2)。这些输出是实时提供的,因此用户可以在处理样本时在用户友好、直观的基于web的环境中探索他们的结果。所有样本(项目)的结果也可以与合作者共享或公开。

虽然EDGE的设计对用户来说尽可能简单,但仍然没有单一的“工具”或算法适合生物信息学领域的所有用例,因此仍然需要一些专业知识才能从结果中得出充分的结论。此外,虽然EDGE中使用的工具经过优化,可以在并行环境中运行,并且可以将分析时间从几天缩短到几分钟,但许多计算步骤仍然需要大量的计算资源。EDGE生物信息学是一项持续努力,为NGS数据分析提供最佳的生物信息学工具,因此模块、工具和整体功能的更新正在不断开发中。

图2所示。来自EDGE分析的示例结果页面。结果页面的顶部显示了运行的摘要,其中包括示例描述、提交时间、使用的cpu数量、项目状态和运行时间。来自不同工作流的结果显示在可折叠的选项卡中。提供了更多深入结果的链接,如下面的参考分析所示。例如,插入图显示了JBrowse结果的一个实例。

关于EDGE生物信息学工作流程和计算环境要求的更多信息可以在https://edge.readthedocs.io/上找到,关于运行每个EDGE模块的视频教程系列可以在http://tutorial.getedge.org上找到。该软件可以从https://lanl-bioinformatics.github.io/EDGE/免费安装,并且可以在https://bioedge.lanl.gov/上使用演示web服务器来分析公开可用的数据。拥有私人数据的用户可以联系作者以访问私人服务器,也可以在http://hobo-nickel.getedge.org注册以上传和处理他们的数据。

Migun释迦3.Chien-Chi瞧3.凯伦·达文波特3.洛根Voegtly2、4拥有李3.燕许3.Casandra Philipson1、2Regina Z. Cer2、4Kimberly A. Bishop-Lilly1
塞隆汉密尔顿1帕特里克·s·g·钱恩3.
1基因组学和生物信息部,生物防御研究理事会,海军医学研究中心-弗雷德里克,8400研究广场,德特里克堡,马里兰州,美国官方manbetx手机版
2国防威胁减少局,贝尔沃堡,美国弗吉尼亚州
3.生物科学部,洛斯阿拉莫斯国家实验室,洛斯阿拉莫斯,NM,美国
4雷多斯,1955年自由大道,莱斯顿弗吉尼亚州,美国

出版

通过一个完全集成的基于网络的生物信息学平台,实现基因组学革命的民主化。
Li PE, Lo CC, Anderson JJ, Davenport KW, Bishop-Lilly KA, Xu Y, Ahmed S, Feng S, Mokashi VP, Chain PS
《核酸》2017年1月9日

脸谱网 推特 linkedin 邮件 脸谱网 推特 linkedin 邮件

留言回复