蛋白质二级结构的平衡预测

蛋白质以其三维结构在细胞内的生物过程中起着重要作用。因此,了解蛋白质的三维结构是很重要的。然而,准确预测蛋白质的三维结构依赖于精确的二级结构(SS)预测。SS定义了蛋白质主链原子的局部空间组织。SS有三个不同的主要组成部分:螺旋(H), β (E)和线圈(C)如图1所示。

图1所示。三个主要的二级结构:(a)螺旋(粉色),(b) β(黄色)和(c)线圈(红色)。

图1所示。三个主要的二级结构:(a)螺旋(粉色),(b) β(黄色)和(c)线圈(红色)。

大多数SS预测器通过在预测中声称更高的预测性能来表达不平衡的准确性HC,反之,在E预测。E当组件处于低计数时,预测器可能会通过过度预测来显示良好的性能HC而且预测不足E。然而,这种低估E等级可以使这种预测在生物学上不适用。在这项工作中,我们的动机是开发一个平衡的SS预测器。

我们从蛋白质序列中开发了一种新的SS统计预测方法,该方法包括4个主要步骤:第一个,即构建有效的基准训练和测试数据集。我们使用了一个训练数据集和两个测试数据集。训练数据集T552来自蛋白质数据库(Protein Data Bank, PDB)。T552由149093个残基组成,分别占18.2%、51.6%和30.2%ECH分别残留。需要注意的是,二级结构数据集自然是不平衡的。我们开发了两个数据:CB513, N295进行实证实验。

第二,是用能够适当区分所考虑的类的类型的特征集对蛋白质序列进行编码。为此,我们利用了每个氨基酸的33个特征。

第三,是开发一个有效的预测引擎,其中我们使用了二值支持向量机与遗传算法(GA)相结合。我们训练了三个二元支持向量机(SVM):) ,2),3)。虽然支持向量机可以直接用于三类分类,但我们宁愿选择使用三个二元支持向量机分类器,这样我们可以在所有三类中获得平衡的精度。遗传算法将每个类别的实值参数作为每个类别的加性因子-概率由三个二元支持向量机给出。我们将我们的组合SVM预测器称为cSVM。我们的最后一个预测器是一个元预测器,名为MetaSSPred,它结合了cSVM和SPINE X的输出。

第四,就是评估预测器的性能。我们对特征集和方法选择进行了初步实验。结果表明,在包含29、31、33和51个特征的4个特征集中,包含33个特征的特征集表现最好。在两个测试数据集上的结果比较表明,三二元类分类器(cSVM)的分类性能优于直接对三个类进行分类的SVM。新的范式MetaSSPred显著提高了两个数据集的beta精度()。MetaSSPred对CB471和N295的评分分别为71.7%和74.4%。这些分数分别比单独使用SPINE X在CB471和N295数据集上给出的分数提高了20.9%和19.0%。MetaSSPred在CB471和N295数据集上三个SS类的精度标准差分别为4.2%和2.3%。另一方面,对于SPINE X,这些值分别为12.9%和10.9%。这些发现表明,MetaSSPred是一个平衡良好的SS预测因子。 The software is available as a standalone software.

出版

一个平衡的二级结构预测器。
Nasrul Islam M, Iqbal S, Katebi AR, Tamjidul Hoque M
理论生物学杂志。2016年1月21日

脸谱网 推特 linkedin 邮件 脸谱网 推特 linkedin 邮件

留言回复