爱玩科技网
您的当前位置:首页用统计学特征预测蛋白质与RNA结合点位

用统计学特征预测蛋白质与RNA结合点位

来源:爱玩科技网
2010 International Conference on Services Science, Management and Engineering

Predicting Protein - RNA Binding sites using

statistical characters

Liu Xinmi/Gong Xiujun/Zhao Feifei

Dept. Computer Science and Technology

Tianjin University Tianjin, China

liuxinmi1104@tju.edu.cn

Abstract—Protein and RNA interactions play essential roles in a number of biological regulatory mechanisms. Effectively identity the binding interfaces can help understand the interaction. In this paper, we took statistical information into account, mainly the singlet propensity and doublet propensity, and added the two propensities with the sequence

information, using machine learning method to predict the interfaces. Results showed that adding statistical characters can improve the prediction precision, especially the doublet propensity. Besides, we constructed three more data sets based on the protein-RNA complex function, and found out for the first time that different complex function data sets show significant differences in prediction precision.

Keywords-protein RNA interaction;singlet propensity;doublet propensity;machine learning;protein-RNA function

用统计学特征预测蛋白质与RNA结合点位

刘新觅,宫秀军,赵菲菲

天津大学计算机科学与技术学院,天津,中国,300072 liuxinmi1104@tju.edu.cn, gongxj@tju.edu.cn,zhaofeifei@tju.edu.cn

【摘要】理解蛋白质与RNA相互作用对破解许多生物学机制有重要作用。有效的识别绑定接口残基是理解作用机制的重要方法。本文充分考虑了接口残基的统计偏好信息,主要是单个接口残基偏好性和成对接口残基偏好性,并使其与氨基酸序列特征相结合,采用机器学习的分类方法来进行接口识别。实验结果表明加入统计偏好性可以有效提高预测的准确性,尤其是成对残基偏好性。同时,根据蛋白质与RNA复合体的功能差异构造了三个数据集,首次发现不同类别复合体间的预测精度存在显著差异。

【关键词】蛋白质与RNA相互作用;单个残疾偏好性;成对残基偏好性;机器学习;蛋白质与RNA功能

1 引言

蛋白质与RNA相互作用在很多生物学过程中起着重要作用,如基因,病毒的组建,蛋白质合成等。识别作用的结合位点可以帮助了解这些生物学过程。目前关于蛋白质与RNA作用点位的研究可以分为两类,一类是总结接口的统计学特性并构造打分函数,代表研究如Kim, O.T.P[1]。另外一类是用机器学习方法来研究,最早Jeong[2]用蛋白质序列信息和预测的蛋白质二级结构信息为特征,第一次将神经网络用于接口残基的预测。随后,Terribilini[3]使用朴素贝叶斯分类器,将氨基酸序列作为特

征。最近,有很多新的研究是采用了支持向量机SVM的方法。如Y. Wang[4]和Manish Kumar[5]都以位置特异性得分矩阵Position-specific scoring matrix PSSM作为特征,而Cheng-Wei Cheng[6]对PSSM做了少量的修改,采用光滑PSSM矩阵作为特征。机器学习方法的关键是如何选取特征向量。观察相关研究,发现目前采用过的特征有蛋白质结构,氨基酸序列和PSSM矩阵等少数几种,没有尝试将统计特性作为特征来学习。那么是否可以将构造打分函数用到的统计特性融合到机器学习的特征中呢?

本文够造了将蛋白质的序列信息和统计特性相结合的特征向量。选取朴素贝叶斯和SVM的机器学习方法。采

978-1-61284-040-6/10/$26.00 ©2010 IEEE SSME2010 67

用了两种测试方法,交叉验证和采用测试集分别实验。结果表明,加入氨基酸残基的统计特性可以有效的特高预测精度。交叉验证的最好结果为:敏感度sensitivity为0.423,特异度specificity为0.8, 准确度为0.786, ROC曲线下面的面积为0.742。采用测试集的最好结果为:敏感度sensitivity为0.592,特异度specificity为0.903, 准确度为0.832, ROC曲线下面的面积为0.848。实验结果在specificity和Accuracy没有显著变化的情况下,sensitivity有显著的提高,能够达到甚至超越先前的研究水平。同时,首次根据蛋白质与RNA复合体的功能不同,主要是在RNA的种类上的差异,重新构造了三个数据集。实验结果表明不同功能的复合体,在预测精度上有很大的差别。这为提高预测精度、理解作用机制提供了新的思路。

表面的频率高。

成对残基接口偏好性Pij定义如下:

其中,nij时氨基酸类型i和氨基酸类型j成对的出现在蛋白质结构表面的数目,nij是它们成对成为RNA接口的数目。

2.3特征向量的构造

2.3.1 氨基酸序列向量

V1=(X-n,X-n+1,…,Xt-1,Xt,Xt+1,…,Xn-1,Xn,C)

其中,n表示窗口大小。本实验中n的取值分布从5到35,共7种。X氨基酸标识符,有二十种取值。所以,X-n到Xn表示连续的一段氨基酸序列。C是类别标签取值为0或1。其中0表示该段序列的中间氨基酸Xt不是接口,1则表示相反的含义。 2.3.2 单个氨基酸残疾接口偏好性向量

V2=(P-n,P-n+1,…,Pt-1,Pt,Pt+1,…,Pn-1,Pn,C)

其中,P i表示这段氨基酸序列中第i个残基的单个接口偏好性。C和n的含义与上面向量的含义相同。 2.3.3 成对残疾接口偏好性向量

V3=(P-n,-n+1, P-n+1,-n+2 , …, Pt-1,t, Pt,t+1, …, Pn-2,n-1, Pn-1,n,C) 其中,Pi,i+1表示第i个残基和与它相邻的第i+1个残基的成对残基接口偏好性。C和n的含义不变。

2 数据集与方法

2.1 数据集

我们使用了三组数据集,命名为RBP91、RBP88和RBP109。RBP91来自Kim, O.T.P的研究小组。Shamoo[7]从分子间作用键角度研究为我们提供了第二组数据集RBP88。RBP109则是从Terribilini的RNABindR [8]网络服务器上下载的。表1列出了每个数据集的详细信息。

Table 1. Details of each data set

表1.数据集的详细信息

数据集 RBP91 RBP88 RBP109 蛋白质链的个数 91 88 109 X射线衍射分辨率

不确定 >3.5 >3.5

2.4 支持向量机

从非接口参加中识别接口残基是一个二分类问题。

解决这一问题,本文使用了两种分类方法,朴素贝叶斯和支持向量机SVM。其中,朴素贝叶斯方法虽然理论简单,篇幅,这里不赘述朴素贝叶斯算法思想,但其在许多问题上体现的性能不比其他更复杂的方法逊色[9]。

SVM是1995年由Vapnik[10]提出的。该方法被成功应用到很多的模式识别问题当中。由上所述,本文面对的是一个二分类问题。对给定的一组输入向量xi(x可以是V1、V2或V3,不包含类别标签C;i=1,2,... n),yi是 xi的类别标签(yi∈{1,0},即特征向量V中的类别标签C)。训练的目的就是优化下面的公式,使得在高维特征空间中找到最优分界面,即使得接口残基与非接口残基的间隔最大。

序列辨识度 <50% 不确定 <30% 接口残基的个数 4157 1073 3581 接口数/所有残基数 31% 7%

14%

2.2 统计偏好性

本研究使用了单个残疾接口偏好性和成对残基接口

偏好性。它们都是基于RBP91计算的。

单个残基接口偏好性Pi的定义如下:

其中,ni表示氨基酸类型i在蛋白质三维结构表面数目。ni表示氨基酸i是RNA接口的数目。当Pi大于1时,氨基酸类型i成为接口的频率要比其出现在蛋白质

68

的结果都有以下几个特性。首先,成对残基接口偏好性向量与其他两个向量相比,在specificity和accuracy没有显著下降的情况下,Sensitivity确有显著的提升。从表2和表3可以看出,在RBP91上,分别提升了5.4%和22.6%。而sensitivity的含义正是能够预测出的接口占所有接口的比例。由此可知,成对残基接口偏好性向量能更有效的预测出接口残基。其次,指标AUC在用第一种测试方法时总有略微下降,但在第二种中则显著提升。针对RBP91,第一种测试集AUC下降了1%,第二种测试方法中提升了5%。第三,氨基酸序列向量和单个残疾接口偏好性向量预测性能是相近的。这是由于单个残疾接口偏好性与序列信息结合后,在使用朴素贝叶斯分类器时,其数值型的统计特性就与序列信息重合了,所以性能是基本相同的。

Table 2. 10 folds cross-validation best results of three feature vectors

表2.三种特征向量10折交叉验证最好结果

特征向量

向量V1

向量V2 0.432 0.8

向量V3 0.378 0.927 0.804

(3) 其中,w是权重向量,b是常量。Ф是映射函数。为了增加分类灵活性,通过引入松弛变量ξi和惩罚因子C ,SVM允许某些向量xi被错误分类。SVM算法的优越性在于不需要求解映射函数Ф,因为不论是寻优目标函数还是分类函数都只涉及到了训练样本之间的内积运算Ф(xi)Ф(xj),xi和xj是输入向量。根据泛函理论,只要一种核函数K(xi,xj)满足Mercer条件,它就对应某一变换空间中的内积。本研究中使用的是高斯核RBF。RBF定义如下,其中,γ和C都是多次训练后,才能确定的输入参数。

K(xi, xj) = exp(-γ||xi - xj||2) (4)

2.5 蛋白质与RNA复合体功能划分

蛋白质与RNA复合体可以根据组成的RNA的不同或其本身的属性划分为不同的类别。本研究在不同的类别中抽取出数量最多的三类,逐一进行研究。将三个类别分别命名为病毒集、转运RNA集和核糖体RNA集。

Sensitivity 0.378 Specificity 0.927

Accuracy 0.804 0.786

3 结果与讨论

3.1 使用SVM分类器

由于本研究采用的是高斯核,所以需要优化两个参数C和γ。我们使用libSVM提供的参数优化方法,自动选取最优的C和γ。使用SVM分类器最好结果是,敏感度sensitivity为0.12,特异度specificity为0.84, 准确度为0.86, ROC曲线下面的面积为0.。这个结果与朴素贝叶斯分类器的性能上是有差距的。从后面的结果中可以得到验证。由于SVM性能劣势,以下的结果讨论都是针对朴实贝叶斯分类器。

AUC 0.753 0.742 0.753

Table 3. Using supplied testing set method’s best results 表3.三种特征向量在提交数据集测试的最好结果 特征向量

向量V1

向量V2 0.738 0.851

向量V3 0.512 0.851

Sensitivity 0.512 Specificity 0.909

Accuracy 0.8826 84.3102 0.8826 AUC 0.828 0.877 0.828

Figure 1. The ROC curve of different window

图1. 窗口不同是ROC曲线对比

3.2 三种特征向量的结果比较

表2列出了在数据集RBP91上,三种特征向量采用10折交叉验证的最好结果,即窗口大小为35时的结果。研究发现随着窗口的增大,信息携带量的增多,预测性能会相应变好。图1清楚的显示出窗口越大,ROC曲线越接近左上方,性能越好。表3则列出了以RBP91为训练集以RBP88为测试集时三种特征向量采用提交测试集方法时的最好结果,其窗口大小仍然是35。由于篇幅,其他数据集上的结果并没有列出,但所有数据集上

69

3.3 与只用统计偏好性的结果比较

Kim, O.T.P采用是基于评分的方法,图2显示了其结果示例,图中每个点表示一个残基,高度是它的分值。分值越大则越有可能是接口残基。我们定义分值大于2.0的点为接口残基,小于-2.0的点为非接口残基,并将他们的结果与我们的结果做了比较。共找到92个残基能被我们的方法有效识而不能被他们评分方法识别的接口残基。找出88个能被我们有效识别而不能被他们识别的非接口残基。图3列举了几个典型的例子,图中彩色的云团表示能被我们正确识别不能被他们识别的残基。

Figure 2. An example of scoring result

图2. 评分结果示例

Sensitivity 0.56 Specificity 0.803 Accuracy 0.729

0.118 0.124 0.961 0.961 0.905 0.929

AUC 0.765 0.6 0.616

3.5 讨论

本方法能在预测接口上体现良好性能可以归结为以下两个方面:第一,构造的特征向量即融合了统计偏好性又融合了序列信息。第二,采用机器学习的方法,而非构造打分函数。同时,实验结果表明类别不同的RNA复合体性能上存在显著的差异。究其原因,研究者认为是由不同功能的复合体结构上差异造成的。以后的预测方法可以尝试引入类别特征,或针对某一类别讨论。

4 结论

我们提出了一种新的蛋白质RNA作用点位的预测方法,首次将蛋白质的序列信息和氨基酸残基的统计特性相结合。结果表明,加入氨基酸残基的统计特性可以有效的特高预测精度。同时,根据蛋白质与RNA复合体的功能不同,重新构造了三个数据集,首次发现不同功能的复合体在预测精度上的显著差别,这为提高预测精度、理解作用机制提供了新的思路。

Figure 3. Interfaces that can only be identified by our method

图3. 只能被我们正确识别的接口示例

References (参考文献)

[1] Oanh T. P., Kim,K. Y. ,Nobuhiro G., Amino acid residue doublet

propensity in the protein-RNA interface and its application to RNA interface prediction[J], Nucleic Acids Research, 2006,00(00),P1-11. [2] Jeong E, Chung IF, Miyano S, A neural network method for identifi-cation of RNA-interaction residues in protein[J], Genome Inform ,, 2004, 15(I), P105-116.

[3] Terribilini M,Lee JH,Yan C,Jernigan RL,Honavar V,Dobbs D, Predi-ction of RNA binding sites in proteins from amino acid sequence[J], RNA,, 2006, 12(8), P1405-1462.

[4] Wang Y., Xue Z. , Shen G. , Xu J., PRINTR: Prediction of RNA

binding sites in proteins using SVM and profiles[J], Amino Acids,2008,35, P295-302.

[5] Kumar M, Gromiha MM, Raghava GP,Prediction of RNA binding

sites in a protein using SVM and PSSM profile[J], Proteins 2008, 71(1), P1-194.

[6] Cheng CW,Su EC-Y, Hwang J-K, Sung T-K, Hsu W-L, Predicting

RNA-binding sites of proteins using support vector machines and evolutionary information[J], BMC Bioinformatics, 2008,9(S12):S6. [7] Allers J,Shamoo Y, Structure-based analysis of protein-RNA inte-ractions using the program ENTANGLE[J], Mol. Biol.,311,P75-86. [8] Terribilini M, Sander JD, Lee JH, Zaback P, Jernigan RL, Honavar V,

Dobbs D, RNABindR: a server for analyzing and predicting RNA-binding sites in proteins[J], Nucleic Acids Res,2007,W243-248.

[9] Buntine,W, Theory refinement on Bayesian networks[M], 1991, San

Mateo, CA: Morgan Kaufmann,1991.52-60.

[10] Vapnik VN: The Nature of Statistical Learning Theory [M], New

York: Springer, 1995.

3.4 不同类别的复合体的结果比较

表5是类别数据集在采用交叉验证测试下的最好性能。由于篇幅,这里只给出了三种类别在成对残基接口偏好性向量上的表现。但是三种数据集的预测表现在所有特征向量中都呈现出同一的性质,即对核糖体RNA集的预测性能较好,而对转录RNA集和病毒集上则没有,表现为无法有效地预测出接口残基。

Table 4. Performance of different types of complex

表4.不同类别的复合体性能表现 类别

核糖体RNA集

转运RNA集

病毒集

70

因篇幅问题不能全部显示,请点此查看更多更全内容