商丘师范学院邮箱,商丘师范邮箱

hacker2年前黑客组织73

s谁有这篇 基于同源建模的蛋白质结构预测方法的研究 作者王帅

第27 卷第9 期

2009 年9 月

河南科学

HENAN SCIENCE

Vol.27 No.9

Sep. 2009

收稿日期:2009-04-15

基金项目:国家自然科学基金项目(50323001)

作者简介:陈红梅(1973-),女,河南虞城人,讲师,硕士研究生,主要研究方向为计算数学.

文章编号:1004-3918(2009)09-1108-03

基于同源建模的蛋白质结构预测方法的研究

陈红梅, 周俊祥

(商丘师范学院计算机科学系,河南商丘476000)

摘要:针对profile-profile 方法中profile 中出现的数据稀疏问题所采用的数据平滑技术以及对于生成排列过程

中对于新的计分体系所采用的动态规划算法,并且在HOMSTRAD 数据库上进行的排列精度实验,结果证明采用

profile-profile 方法并结合数据平滑和动态规划技术可以有效地提高查询序列和目标序列的排列精度.

关键词:蛋白质结构预测; 同源建模; 数据平滑

中图分类号:O 24 文献标识码:A

生物信息学作为一门新的学科,它把基因组DNA 序列分析作为源头,在获得蛋白质编码区的信息后进

行蛋白质空间结构模拟和预测,然后依据特定蛋白质的功能进行必要的药物设计. 因此在生物信息学的研

究中,确定蛋白质序列的功能也就成为一个重要的方向. 但是在目前已知的蛋白质序列数据库中,已经根

据实验测出其结构和功能的蛋白质只占其中的小部分,远远无法满足实际应用的需要,于是开发自动处理未

知蛋白质序列的方法成为一个越来越重要的问题.

1 蛋白质结构预测过程

不同来源或者不同生物功能的蛋白质可能有相似的结构,通常认为序列相似意味着结构相似. 因此,同

源建模法[1-2]就是利用结构已知的家族成员(模板)预测新序列的结构. 同源建模法一般包含以下几个步骤:

第一,识别模拟的模板;第二,目标序列和模板序列的排列;第三,构建模型;第四,构建非保守的loop 区;第

五,安装侧链;第六,模型修饰;第七,结构合理性评估.

本文重点讨论的内容是采用数据平滑技术提高目标序列和模板序列的排列精度,以及对两种数据平滑

算法精度的实验数据分析.

2 目标序列和模板序列的排列

2.1 排列过程概述

在查询序列和目标序列的排列[3]这个过程中,通过局部对比排列搜索工具BLAST 获得了查询序列的模

板,这里我们将要采用引入进化信息的profile-profile 方法[4]完成双序列的排列. 首先,通过识别模板的过

程,获得两个输出的频度profile 和对数profile;接着,在处理中运用数据平滑技术对频度profile 中出现的数

据稀疏进行平滑并获得频率profile;然后,通过获得的频率profile 以及对数profile 构建新的计分体系;再者,

通过带有空位罚分的动态规划算法结合所构建的计分体系获得查询序列和目标序列的排列;最后,在

HOMSTRAD 数据库中,测试查询序列和目标序列的排列的精度并且做出详细的分析.

2.2 Profile-profile 比对方法

为了提高相关联蛋白质的检测质量,对于查询序列以及模板序列引入进化信息是一种经常被应用的方

法. Profile-profile 比对方法就是这样一种将序列之间的进化信息考虑在内的一种方法. 在具体应用Profileprofile

比对方法时,不同的profile-profile 方法的本质区别在于如何计算两个profile 位置之间的分数,其中

profile 是一个向量集,每个向量包含了多序列比对中每种氨基酸在多序列比对的一个特殊位置所出现的频度.

2.3 数据平滑技术

数据平滑技术[5]是自然语言处理中的重要方法. 对于汉语统计语言模型的构造技术,其研究目的在于:

2009 年9 月

通过对大规模真实语料库中的词的上下文同现频度进行统计,获取词的上下文同现概率数据. 对于基于词的

N-gram 模型来说,根据最大似然估计原则(Maximum Likelihood Estimation),词的上下文条件概率p(wi│wi-1

i-N+1

)被

估计为如公式(1)所示: p(wi│wi-1

i-N+1

)= c(wi i-N+1

wi∑wi i-N+1

, (1)

其中:c(wi i-N+1

)表示词串wi i-N+1

在训料文本T 中的出现次数.

基于以上数据平滑技术的介绍,并结合蛋白质结构预测中的profile-profile 方法所生成的频率profile 和

对数profile,本文选择了加法数据平滑和Good-Turing 数据平滑技术.

2.3.1 加法平滑Lidstone,Johnson 和Jeffreys 等人提出了一种简单易行的数据平滑方法,称作加法平滑(additive

Smoothing). 它的基本思想是:为了避免零概率问题,将N-gram 模型中每个N 元对的出现次数加上一个常

数δ(0δ≤1),相应的N-gram 模型参数padd

(wi│wi-1

i-N+1

)计算公式如(2)所示:

padd

(wi│wi-1

i-N+1

)= c(wi i-N+1

)+δ

wi∑(wi i-N+1

)+δ│V│

. (2)

2.3.2 数据平滑的具体应用结合蛋白质结构预测中的profile-profile 方法所生成的频率profile 和对数

profile,这里主要是基于profile 中的20 个氨基酸的频度进行的,这里本文假设这20 个氨基酸之间是相互独

立的. 因此这里我们的模型参数空间为20. 并分别采用两种数据平滑将频度profile 进行平滑,而后生成我

们所需要的频率profile.

2.4 动态规划技术

在生物信息学中,通常使用动态规划算法来获得两个序列的比对,在这里采用带有空位罚分的动态规划

算法来获取目标序列和模板序列的排列.

在这里我们假定采用空位罚分[6],y(g)=-d-(g-1)e,其中:d 为gap-open;e 为gap-extension. 通常在这里e<d.

空位罚分也对应于一个比对的概率统计模型,对于一个给定的序列,在特殊的位置出现空位的概率是空位长

度的函数f(g)与所插入残基概率的乘积,如公式(3)所示:

P(gap)= f(g)

i in gap 仪qxi

, (3)

公式(4~7)有一个前提条件,就是假设空位的长度与它所包含的残基类型无关. 这种情况下,当要将空位出

现的概率转化为对数值进行考虑时,很显然,这里的qxi

可以忽略不计,可以得出如公式(4)所示:

y(g)=log(f(g)), (4)

这样,空位罚分就对应于空位长度概率的对数值了,在计算空位罚分时就可以将罚分值累加求和得到总的罚

分值了.

于是我们将有如下算法描述:

M(i,j)=max

M(i-1,j-1)+s(xi

,yj

),

Ix

(i-1,j-1)+s(xi

,yj

),

Iy

(i-1,j-1)+s(xi

,yj

仪仪仪仪仪

仪仪仪仪仪

Ix

(i,j)=max

M(i-1,j)-d,

Ix

(i-1,j)-e 仪; Iy

(i,j)=max

M(i,j-1)-d,

Iy

(i,j-1)-e 仪;

其中:xi

代表查询序列中第i 个氨基酸;yj

代表模板序列中第j 个氨基酸;s(xi

,yj

)代表序列中将查询序列中第i

个氨基酸和模板序列中第j 个氨基酸相比对的分数;Ix

(i,j)代表在模板序列的第j 个位置插入空位时,查询序

列第i 个氨基酸和此空位相比对时两序列的最大分数值;Iy

(i,j)代表在查询序列的第i 个位置插入空位时,模

板序列第j 个氨基酸和此空位相比对时两序列的最大分数值;M(i,j)代表长度为i 的查询序列和长度为j 的

模板序列比对的分数值.

2.5 实验结果

为了对采用profile-profile 方法获得的目标序列和模板序列的排列结果有一个评价,本文在HOMSTRAD

陈红梅等:基于同源建模的蛋白质结构预测方法的研究-1109-

河南科学第27卷第9期

数据库中选取了629 对蛋白质序列比对作为标准排

列,将采用profile-profile 方法获得的目标序列和模板

序列的排列与其进行比较获得排列的精度作为评价

的指标. 蛋白质序列的排列精度也就是蛋白质目标

序列排列与蛋白质序列标准排列相比较,排列正确的

氨基酸位置所占的百分比. 如公式(5)所示:

排列精度=

排列正确的比对个数

模板序列长度

. (5)

实验数据分析比较:采用加法平滑时,在其中的

平滑参数δ 取值不同会得到不同的平滑效果. 我分别

对δ 取0.1,0.25,0.5,0.75,1 这5 个参数时进行实验,

获得629 组数据,并抽取30 组数据如图1 所示.

通过图1 可以看出,在测试出的排列精度中,参数δ 取0.1,0.25,0.5,0.75 时,他们的精度平均值在δ 取

0.1 时稍大些,而当δ 取1 时,获得的效果最好.

在测试出的排列精度中,加法平滑(δ 取1)时获得的效果比未平滑要稍微好一些. 这说明采用的加法平

滑算法(δ 取1)对于解决profile 中存在的数据稀疏问题还是有帮助作用的. 在对氨基酸出现频度进行平滑

时,加法平滑(δ 取1)获得的结果还是有明显的提高的.

3 结束语

本文首先讨论了基于同源建模的蛋白质结构预测的基本方法,分析了基于同源建模的profile-profile 方

法与传统方法的差别,并介绍了蛋白质结构预测在生物信息学研究中的地位与作用. 随后文中依次分别介

绍了模板识别、查询序列与目标序列的排列、构建模型以及结构合理性评估的方法与具体的实现过程.

本文重点介绍了查询序列与目标序列排列的全过程,而后分别介绍了排列过程中所用到的profile-profile

方法、数据平滑技术以及排列的动态规划算法. 最后介绍了排列精度的实验部分,这里分别对加法平滑取

不同参数的实验数据进行了比较与分析. 最终得出了在加法平滑(δ 取1)时所获得的排列精度最大.

参考文献:

〔1〕 蒋毅恒,白焰,朱耀春,等. 基于遗传编程的智能建模方法及应用〔J〕. 微计算机信息,2008(3):150-152.

〔2〕 Dayhoff M O,Hunt L T,Schwartz R M. Protein superfamilies〔J〕. Atlas of Protein Sequence and Structure,1978,5(3):9-24.

〔3〕 Jason T L,wang Q,Wu H. Application of neural networks to biological data mining:a case study in protein sequence classification

〔C〕//Proceedings of the Sixth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,Boston,

2000:305-309.

〔4〕 程凌鹏,张景强. 伊蚊C6/36 细胞浓核病毒蛋白衣壳三维结构的测定〔J〕. 中国科学:C 辑,2004,34(1):75-79.

〔5〕 王志珍. 蛋白质折叠和分子伴侣〔J〕. 生物学通报,2004,39(5):1-6.

〔6〕 靳利霞,唐焕文. 蛋白质结构预测方法简述〔J〕. 自然杂志,2001,23(4):217-221.

Prediction-Methods Researqch of Protein Structure

Based on Homologous Modelling

Chen Hongmei, Zhou Junxiang

(Department of Computer Science,Shangqiu Normal College,Shangqiu,476000,Henan China)

Abstract:Data smooth we use in order to solve data sparseness in profile of profile-profile method and dynamic

programming algorithm of new scoring system in the process of alignment. And the experiment of alignment

precision tested in database HOMSTRAD. We improve the precision of alignment between query sequence and

target sequence effectively by profile-profile.

Key words:protein structure prediction; homologous modeling; data smoothing

图1 不同参数加法平滑排列精度

Fig.1 Alignment precision of addition smoothing

for different parameters

1.200 000

1.000 000

0.800 000

0.600 000

0.400 000

0.200 000

0.000 000

1 3 5 7 9 11 13 15 17 19 21 23 25 27 29

参数取0.1

参数取0.75

参数取0.25

参数取1

参数取0.5

-1110-

商丘师范学院的学生会好进吗?

给你点建议:

(1)个人的组织协调能力要好,高中担任过学生会成员、班长团委类似职务肯定有帮助。

(2)多跟导员、系主任领导沟通,办公室经常有你的身影(帮忙),积极主动做好班级工作,不管是导员交代的或是系里要求的.

(3)班级里担任职务,积极参加学校院系组织的活动。

(4)生活作风 纪律良好,学习成绩不要太烂。

(5)做到了以上几点,进学生会绝对没问题.

商丘师范学院四级准考证号码前六位是什么 求各位大虾 急用

准考证忘记了有以下几种方法可以找回:

1、四级报名网站+身份证号

登陆四六级报名网站,网址为:中国教育考试网,输入姓名、身份证号等信息即可找回。该方法仅限北京、天津、河北、吉林、上海、安徽、河南、湖北、山东、福建、广东、广西、海南、重庆、四川、云南、甘肃、青海共18个省市考生找回准考证。具体步骤为:输入身份证信息-下载压缩包-解压。

2、文档查找

登陆学校教务系统,看是否有准考证号码,看电脑是否下载了准考证电子文档,在浏览器的下载管理或者word、wps里一般都能找到,或者发送给同学和打印店时的邮箱和微信、QQ里面看看。

大学英语四、六级考试作为一项全国性的教学考试由“国家教育部高教司”主办,分为四级考试(CET-4) 和六级考试(CET-6),每年各举行两次,分别在同一天的上午和下午进行。

从2005年1月起,成绩满分为710分,由国家教育部高教司委托“全国大学英语四六级考试委员会”给每位考生发成绩单。2013年12月考次起,全国大学英语四、六级考试委员会对四、六级考试的试卷结构和测试题型作局部调整。

相关文章

新舟镇新舟村村委会,新舟镇的邮箱是什么

新舟镇新舟村村委会,新舟镇的邮箱是什么

贵州遵义绥阳的531,532厂以前是干什么的? 一直以来就是军工企业,专门生产飞机部件,主要是生产军用飞机部件,还有生产导弹什么的,听爷爷们说在毛泽东时间就有这些军工厂了,但在04年的时候,由于绥阳县...

密保邮箱登录,题密保邮箱qq邮箱

密保邮箱登录,题密保邮箱qq邮箱

如何进行QQ邮箱密保 QQ邮箱只有独立密码,没有密码保护问题一说。QQ邮箱独立密码设置方法如下:第一步:登录QQ聊天软件,点击聊天面板的邮箱图标,登录邮箱;第二步:点击邮箱图标登录QQ邮箱之后点击邮箱...

263企业邮箱是腾讯的吗,263邮箱腾讯邮箱

263企业邮箱是腾讯的吗,263邮箱腾讯邮箱

qq邮箱给263邮箱发邮件没收到 退信原因:要求的邮件操作未完成,邮箱不可用(例如,邮箱未找到,或不可访问)。 问题原因 收件方的邮件地址不可用,或者邮箱被服务商暂停使用。263邮箱的问题 邮箱无法收...

江西财政厅办公室邮箱地址,江西财政厅办公室邮箱

江西财政厅办公室邮箱地址,江西财政厅办公室邮箱

江西财政厅的咨询电话多少啊 江西省财政厅机关各处室部 门 电 话 办 公 地 点办公室 7287560 南昌市孺子路47号鑫源大厦三、五、六楼综合规划处 7287617 南昌市孺子路47号鑫源大厦十一...

北大邮箱密码,北大qq邮箱

北大邮箱密码,北大qq邮箱

各位朋友,老师,我想问问北大中文系的诸多事宜,望各位用心回答,不胜感激... 1、你好,我也是跨专业考研,目标是北大的古典文献学 北大没有提供明确的参考书目 下面是我查的一些资料,希望能帮到你,你才大...

没有号如何直接发邮箱给对方,没有qq号如何直接发邮箱

没有号如何直接发邮箱给对方,没有qq号如何直接发邮箱

如何发邮件? 手机端的先下载一个QQ邮箱端口1、登录QQ邮箱手机客户端2、点击右上角【+】,再点击【写邮件】3、输入收件人,主题,内容填写完成点击发送即可。电脑端的可以登录网页版或者下载客户端:1、可...

评论列表

访客
2022-10-07 01:47:46

同源建模; 数据平滑中图分类号:O 24 文献标识码:A生物信息学作为一门新的学科,它把基因组DNA 序列分析作为源头,在获得蛋白质编码区的信息后进行蛋白质空间结构模拟和预测,然后依据特定蛋白质的功能进行必要的药物

访客
2022-10-06 22:53:38

要方法. 对于汉语统计语言模型的构造技术,其研究目的在于:2009 年9 月通过对大规模真实语料库中的词的上下文同现频度进行统计,获取词的上下文同现概率数据. 对于基于词

访客
2022-10-07 00:59:12

第9期数据库中选取了629 对蛋白质序列比对作为标准排列,将采用profile-profile 方法获得的目标序列和模板序列的排列与其进行比较获得排列的精度作为评价的指标. 蛋白质序列的排列精度也就是蛋白质目标序列排列与蛋白质序列标准排列相

访客
2022-10-06 22:38:42

2.〔2〕 Dayhoff M O,Hunt L T,Schwartz R M. Protein superfamilies〔J〕. Atlas of Protein Sequence and Str

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。