文档搜索 > 蛋白质的序列分析及结构预测分析
蛋白质的序列分析及结构预测
DNA sequence
Protein sequence
Protein structure
Protein function
一、蛋白质数据库介绍
二、蛋白质序列分析
三、蛋白质结构预测
四、应用 ? 分子设计
一、蛋白质数据库介绍
蛋白质的结构主要分为四级, 一级结构、二级结构、三级结构以及四级结构。依据这种结构层次, 将蛋白质数据库分为:
1. 蛋白质序列数据库:如PIR、SWISS-PROT、NCBI , 这些数据库的数据主要以蛋白质的序列为主, 并赋予相应的注释;
2. 蛋白质模体及结构域数据库:如PROSITE、Pfam, 这些数据库主要收集了蛋白质的保守结构域和功能域的特征序列;
3. 蛋白质结构数据库: 如PDB 等, 这些数据库主要以蛋白质的结构测量数据为主;
4. 蛋白质分类数据库:如SCOP、CATH、FSSP 等, 这其中有以序列比较为基础的序列分类数据库以及以结构比较为基础的结构分类数据库之分。
蛋白质数据库特征:
1. 蛋白质序列数据库
(1)PIR(protein information resource, PIR)和PSD (protein sequence database, PSD) http://pir.georgetown.edu/pirwww
PIR-PSD 是一个综合全面的、非冗余的、专业注释的、分类完整的蛋白质序列数据库。PIR-PSD 的序列来自于将GenBank/ EMBL/ DDBJ 三大数据库的编码序列的翻译而成的蛋白质序列、发表的文献中的序列和用户直接提交的序列。
(2)SWISS-PROT/ TrEMBL数据库 www.expasy.org/swissprot
数据库由蛋白质序列条目构成, 每个条目包含蛋白质序列、引用文献信息、
分类学信息、注释等, 注释中包括蛋白质的功能、转录后修饰位点、特殊位点
和区域、二级结构、四级结构、与其他序列的相似性、序列残缺与疾病的关系、
序列变异体等信息。
2. 模体以及结构域数据库
(1)PROSITE 蛋白质家族及结构域数据库( www.expasy.org/prosite/ )
PROSITE同时数据库提供了序列分析工具:
① ScanProsite 是用于搜索所提交的序列数据是否包含 PROSITE 数据库中的序列模式或者SWISS-PROT 数据库中已提交的序列模式;
② MotifScan 用于查找未知序列中所有可能的已知结构组件, 数据库包括PROSITE序列表谱、PROSITE 模式、Pfam 收集的隐马尔可夫模式( HMM)。
(2) PRINTS Fingerprint Database www.bioinf.man.ac.uk/dbrowser/PRINTS/
这个数据库包含1
500 个蛋白质指纹图谱, 编码9 136 个单一模体。
(3) BLOCKS ( www.blocks.fhcrc.org/ )
BLOCKS 是通过一些高度保守的蛋白质区域比对出来的无空位的片段。
模体数据库
(1 ) 蛋白质家族序列比对以及隐马尔可夫模式数据库Pfam( protein families database of alignments and HMMs)
Pfam 是蛋白质家族序列比对以及隐马尔可夫模式数据库,其网址是: www.sanger.ac.uk/Software/Pfam/index.shtml。
(2) 蛋白质结构域数据库ProDom
http://prodes.toulouse.inra.fr/prodom/doc/prodom.html
(3) SMART
SMART 是一个简单的结构研究工具, 可对可转移的遗传因子进行鉴定和注解, 以及分析结构域结构, 可以检测出500 多个参与信号传导、胞外和染色体相关蛋白质的结构域家族, 对这些结构域又在系统进化树分布、功能分类、三级结构和重要的功能残基方面做了注解。
http://smart.embl-heidelberg.de/
3. 蛋白质结构数据库
PDB( protein data
bank , PDB) http://www.rcsb.org/pdb/
PDB 包括了蛋白质、核酸、蛋白质-核酸复合体以及病毒等生物大分子结构数据, 主要是蛋白质结构数据, 这些数据来源于几乎全世界所有从事生物大分子结构研究的研究机构, 并由RCSB 维护和注释。
4.蛋白质结构分类数据库
(1) CATH 数据库
www.biochem.ucl.ac.uk/bsm/cathnew/index.html
(2) SCOP 蛋白质结构分类数据库( structural classification of protein database,SCOP)
scop.mrclmb.cam.ac.uk/scop/index.html
二、蛋白质的序列分析
1. 蛋白质序列信息的获取
2. 蛋白质序列分析
1. 蛋白质序列信息的获取
(1) 直接测序
(2) 翻译编码的DNA序列 ORF Finder
(3)在数据库中搜索
(1)直接测序
e.g. Protein Sequencing and Identification
by Tandem Mass Spectrometry,
即用串联质谱仪测序
1. 蛋白质序列信息的获取
串联质谱及其作用
串联质谱仪的组合方式:
(1) 磁分析器-静电分析器-磁分析器
(2) 静电分析器-磁分析器-静电分析器
(3) 三重四极滤质器质谱仪
(4) 混合式串联质谱仪,如MA-ESA-Q-Q。实现串联质谱有空间串联和时间串联两种方式。
优点:
于复杂组分体系且干扰严重的样品中低含量组分分析测
定,具有比GC-MS和LC-MS等一级质谱更高的选择性和灵
敏度。
Masses of Amino Acid Residues
Protein backbone
H...-HN-CH-CO-NH-CH-CO-NH-CH-CO-…OH
Ri-1
Ri
Ri+1
AA residuei-1
AA residuei
AA residuei+1
N-terminus
C-terminus
Breaking Protein into
Peptides and Peptides into Fragment Ions
General for sequencing
Breaking Protein into
Peptides and Peptides into Fragment Ions
General for sequencing
Peptide Fragmentation
H...-HN-CH-CO
. . . NH-CH-CO-NH-CH-CO-…OH
Ri-1
Ri
Ri+1
H+
Prefix Fragment
Suffix Fragment
Collision Induced Dissociation
N- and C-terminal Peptides
G
F
P
N
A
G
F
P
N
A
G
F
P
N
A
G
F
P
N
A
G
F
P
N
A
N-terminal peptides
C-terminal peptides
Terminal peptides and
ion types
G
F
P
N
Peptide
Mass (D)
57 + 97 + 147 + 114 = 415
H2O
Peptide
Mass (D)
57 + 97 + 147 + 114 –
18 = 397
G
F
P
N
H2O
without
N- and C-terminal Peptides
G
F
P
N
A
G
F
P
N
A
G
F
P
N
A
G
F
P
N
A
G
F
P
N
A
N-terminal peptides
C-terminal peptides
415
486
301
154
57
71
185
332
429
N- and C-terminal Peptides
N-terminal peptides
C-terminal peptides
415
486
301
154
57
71
185
332
429
Peptide Fragmentation
y3
b2
y2
y1
b3
a2
a3
HO NH3+
| |
R1 O R2 O R3 O R4
| || | || | || |
H -- N --- C --- C --- N --- C --- C --- N --- C --- C --- N --- C -- COOH
| | | | | | |
H H
H H
H H
H
b2-H2O
y3
-H2O
b3-
NH3
y2 - NH3
Mass Spectra
G
V
D
L
K
mass
0
57 Da = ‘G’
99 Da = ‘V’
L
K
D
V
G
and Suffix Fragments.
D
H2O
Protein Identification
with MS/MS
G
V
D
L
K
mass
0
Intensity
mass
0
MS/MS
Peptide Identification:
Tandem Mass-Spectrometry
Breaking Proteins into
Peptides
peptides
MPSER
……
GTDIMR
PAKID
……
HPLC
To
MS/MS
MPSERGTDIMRPAKID......
protein
Mass Spectrometry
Matrix-Assisted Laser Desorption/Ionization (MALDI)
基质辅助激光解吸质谱
基质辅助激光解吸飞行时间质谱仪
MALDI-TOF-MS
质谱。近年来已成为检测和鉴定多肽、蛋白质、多糖、核苷酸、
糖蛋白、高聚物以及多种合成聚合物的强有力工具。
膜,基质从激光中吸收能量,基质-样品之间发生电荷转移使
得样品分子电离,电离的样品在电场作用下加速飞过飞行管道,
根据到达检测器的飞行时间不同而被检测,即测定离子的质量
电荷之比与离子的飞行时间成正比来检测离子。
的不同来进行检测,并测得样品分子的分子量。
Tandem Mass Spectrometry
Scan
1708
LC
Scan
1707
MS
MS/MS
Ion
Source
MS-1
collision
cell
MS-2
多肽片段指纹图谱(PFF)
步骤:用酶专一性酶解蛋白质,经过分离,得到的肽段在质谱中被选择和破碎后得到MS/MS谱图,与数据库中的谱图比较进行鉴定
代表方法:
LC-ESI-MS/MS
2D-LC-MS/MS(shotgun)
1. 蛋白质序列信息的获取
(2)翻译编码的DNA序列
e.g.用“ORF Finder”程序找到DNA的开放阅读框。
网址:ncbi.nlm.nih.gov/gorf/gorf.html
1. 蛋白质序列信息的获取
(3)在数据库中搜索
e.g. PIR-PSD database:
pir.georgetown.edu/pirwww
SWISS-PROT/TrEMBL database
www.expasy.org/swissprot
2. 蛋白质序列分析
1.蛋白质序列的基本性质分析
理化性质分析,疏水性分析,跨膜区分析,信号肽预测,Coil区分析,亚细胞定位
2.序列数据库搜索
相似性搜索,模体的搜索
3.结构域定位
4.空间结构预测
二级结构及三级结构预测,结构预测方法评价
蛋白质序列分析主要内容:
1. 蛋白质序列的基本性质分析
(1)理化性质分析
分子质量、分子式、理论等电点、氨基酸组成、消光系数、稳定性等理化特性。
例,利用ProtParam工具
http://us.expasy.org/tools/protparam.html
0.109
-0.542
总体亲水性
105.18
63.73
脂肪族指数
29.59
31.72
不稳定性指数
>10
>10
大肠杆菌,
体内
>20
>20
酵母,体内
30
30
哺乳动物,
体外
半衰期
(小时)
5960
75455
消光系数(280nm)
3848
5014
总原子数
6.20
4.47
理论等电点pI
26899.9
36904.4
分子量
C1211H1951N319O364S3
C1615H2420N428O535S16
分子式
CLAP
CL
理化指标
CL和CLAP的理化性质预测结果
CL:组织蛋白酶L
CLAP:组织蛋白酶L相关蛋白
(2) 疏水性分析
氨基酸侧链的疏水性用从各氨基酸减去甘氨酸疏水性之值来表示,蛋白质的疏水性在保持蛋白质三级结构的形成和稳定中起着重要作用。
e.g.利用ProtScale工具
http://web.expasy.org/protscale/
利用BioEdit软件分析
海参溶菌酶亲水性/疏水性分析
Score > 0,表示疏水性; Score <0,表示亲水性
(3) 跨膜区分析
蛋白质含有跨膜区提示它可能作为膜受体起作用,也可能是定位在膜上的锚定蛋白或离子通道蛋白。
例,使用TMHMM Server v.2.0在线分析
http://www.cbs.dtu.dk/services/TMHMM/
铝激活苹果酸的转运蛋白(TaALMT1)跨膜结构分析
(4)
信号肽预测
http://www.cbs.dtu.dk/services/SignalP/
海参溶菌酶信号肽预测
Conclusion:cleavage site between pos. 20 and 21: ASG-QV
(5) Coil区分析
e.g. 使用COILS服务器分析
http://www.ch.embnet.org/software/COILS_form.html
(6) 亚细胞定位
不同细胞器多具不同的理化环境,它会根据蛋白质的结构及表面理化特征选择性容纳蛋白质;蛋白质表面直接暴露于细胞器环境中,它由序列折叠过程决定,而后者取决于氨基酸组成。
e.g.使用TargetP
http://www.cbs.dtu.dk/services/TargetP/
组织蛋白酶CL和相关蛋白CLAP的亚细胞定位
4.3
13.0
4.3
17.4
4.3
13.0
13.0
4.3
26.1
CLAP
-
-
4.3
4.3
4.3
8.7
8.7
34.8
34.8
CL
细胞支架
质
膜
高尔
基体
分泌性
小囊泡
空
泡
细
胞
核
线
粒
体
内
质
网
细
胞
质
各亚细胞位点出现可能性(%)
蛋
白
质
结果证明,CL和CLAP出现几率最高的位点都为胞质,说明它们都为
胞浆内蛋白,这也为今年来在溶酶体内外都发现组织蛋白酶活性提供
了证据。
(1)相似性搜索(或同源搜索)
① 一个新序列与序列数据库中的序列比对,
从而找到同源或者相似序列。
② 常用程序是BLASTp。
2. 序列数据库搜索
(2) 模体(motif)的搜索
( signature) , 就是所谓的模式序列( pattern ) 。
Motif 搜索
www.expasy.org/prosite
[AG]-x-V-x(2)-x-{YW}
[ ] shows either amino acid
x is any amino acid
x(2) any amino acid in the next 2 positions
{ } shows any amino acid except these
模体的搜索举例:
H-[ FW]-x-[ LIVM ]-x-G-x ( 5 )-[ LV]-H- x( 3)-[DE]
3. 结构域定位
什么是结构域?
结构域定位
二聚体蛋白结构域
结构域和功能域
结构域定位
结构域定位
基本类型 :
64
α-螺旋型
全β-折叠型
α/β型
α+β型
结构域定位分析一般流程:
(1)探测序列与其他全序列之间有无同源性.如果有,那么这是该段序列为结构域的很好证据,然后进行结构数据库的搜索,也可以搜索注释好的数据库,从而得到一些有关结构域的说明。
(2)分析低复杂度的区域。在多结构域的蛋白质中,这些低复杂度序列常常间隔结构域,长的重复序列特别是pro、glu、ser、thr等常常是连接序列,也是很好的结构域剪接位置。
结构域定位
结构域定位分析一般流程:
(3)跨膜区域。由于跨膜结构是一个非常典型的结构,这种结构连续性较强,而且预测容易,准确性也比较高,因此也是一个分割的区域,这样就很容易区分胞外和胞内区域。
(4)卷曲螺旋结构(coiled-coil)。这个结构有时也可能是蛋白质结构域之间的间隔区,可以在COIL网站上预测coiled-coil结构。
结构域定位
结构域定位分析一般流程:
(5)二级结构预测。这个方法常常用来预测一个结构中包含的不同折叠子。例如,一个序列中的一部分可能会被预测成只有α-螺旋,而另一个部分可能会被预测成只含有β-折叠,这些都可能预示有域的结构存在。
(6)如果序列已被成功地分解成成形的结构域,那么重复进行数据库搜索并且进行独立比对是很重要的.
结构域定位
结构域定位
结构域分析工具
介于二级和三级结构之间可以明显区分但又相对独立的折叠单元,每个结构域自身形成紧实的三维结构,可以独立存在或折叠,但结构域与结构域之间关系较为松散。
通常由25-300个氨基酸残基组成;
全平行结构域、反平行结构域、α+β结构域、 α/β结构域及其他折叠类型。
利用SMART服务器进行结构与分析
http://smart.embl-heidelberg.de/
结构域定位分析举例
实例分析:
海参溶菌酶序列和其它i型溶菌酶保守区域的比对
结果:高度保守的2个活性位点(E34和S50)和特有的氨基酸
保守序列MDVGSLSCG(P\Y)(Y\F)QIK
i-型溶菌酶含有两个结构域
模体搜索和结构域定位举例
实例分析:
海参i-型溶菌酶3D结构模式图
4. 蛋白质空间结构预测
(1)蛋白质二级结构预测
是研究蛋白质氨基酸序列和三级结构之间的桥梁。
α螺旋,β折叠, β转角,
无规则卷曲(coils)
以及模体(motif)
等蛋白质局部结构组件
氨基酸残基具有形成一定二级结构的倾向。
处于?螺旋、?折叠、转角(或其它状态)之一的
二级结构态,即三态。
蛋白质二级结构预测
二级结构的预测方法:
蛋白质二级结构预测
二级结构中氨基酸出现频率的影响:
氨基酸残基在二级结构元件中出现频率的研究揭示,
某些残基如 Glu 、 Met 、 Ala 和 Leu 在α螺旋中出现的
频率比在其他二级结构元件中高。相反,Gly 和 Pro 在
α螺旋中频率很低。但它们在β转角中很高。另一些残基
包括 Val 、Ile 和芳香族氨基酸在β折叠片中频率很高,
而 Asp 、Glu 和 Pro 在β折叠片中则很低。这表明各种
残基形成各种二级结构的倾向性是不同的。
蛋白质二级结构预测
工具
网站
备注
BCM Search
Launcher
http://searchlauncher.bcm.tmc.edu/
包括了常见的蛋白质结构分析程序入口,一般分析可以以此服务器作为起点
HNN
http://npsa-pbil.ibcp.fr/cgi-bin/npsa_automat.pl?page=npsa_nn.html
基于神经网络的分析工具,含序列到结构过程和结构到结构处理
Jpred
http://www.compbio.dundee.ac.uk/~www-jpred/submit.html
基于Jnet神经网络的分析程序,并采用PSI-BLAST来构建序列Profile进行预测,对于序列较短、结构单一的蛋白预测较好
nnPredict
http://alexander.compbio.ucsf.edu/~nomi/nnpredict.html
预测蛋白质序列中潜在的亮氨酸拉链结构和卷曲螺旋
NNSSP
http://bioweb.pasteur.fr/seqanal/interfaces/nnssp-simple.html
基于双层前反馈神经网络为算法,还考虑到蛋白质结构分类信息
PREDATOR
http://bioweb.pasteur.fr/seqanal/interfaces/predator-simple.html
预测时考虑了氨基酸残基间的氢键
蛋白质二级结构分析工具
工具
网站
备注
PredictProtein
http://www.predictprotein.org/
提供多项蛋白质性质分析,并有较好准确性
Prof
http://www.aber.ac.uk/~phiwww/prof/
基于多重序列比对预测工具
PSIpred
http://bioinf.cs.ucl.ac.uk/psipred/psiform.html
提供跨膜蛋白拓扑结构预测和蛋白profile折叠结构识别工具
SOPMA
http://npsa-pbil.ibcp.fr/cgi-bin/npsa_automat.pl?page=npsa_sopma.html
可以比较各种分析方法得到的结果,也可输出 “一致性结果”
SSPRED
http://coot.embl.de/~fmilpetz/SSPRED/sspred.html
基于数据库搜索相似蛋白并构建多重序列比对
蛋白质二级结构分析工具(续)
蛋白质二级结构预测
PredictProtein 提交界面详解
提交邮件
地址(必填)
蛋白名称(可选)
分析方法
1D序列预测
PROFsec(默认)
基于轮廓(profile)神经网络预测蛋白质二级结构
PROFacc(默认)
基于轮廓(profile)神经网络预测残基溶剂可及性
PHDhtm(默认)
基于多序列比对中预测跨膜区位置和拓扑结构
ASP(默认)
识别二级结构中构型变化的氨基酸
COILS(默认)
识别卷曲螺旋
PROFtmb
识别细菌中Beta桶结构
序列基序识别
ProSite(默认)
搜索序列中保守基序
SEG(默认)
过滤序列中低复杂区域
PredictNLS(默认)
基于实验数据预测序列核定位区域
二硫键识别
DISULFIND(默认)
识别序列中二硫键位置
无序结构识别
PROFbval
识别序列标准骨架的B-value值
UCON
预测蛋白质中非3D结构区域
折叠子识别
AGAPE
基于折叠结构识别远源蛋白序列
残基接触预测
PROFcon
预测单链中原子残基接触性
结构域预测
ProDom(默认)
基于序列同源性来预测蛋白质结构域
CHOP (coming
soon)
预测蛋白质结构域
结构表面识别
ConSeq (coming
soon)
预测蛋白质结构表面结构功能关键残基
分析方法程序详解
跨膜螺旋预测(PHDhtm)专家选项
Ambivalent序列识别(ASP)专家选项
CHOP结构域分析工具专家选项
比对内容
从SWISS-PROT数据库返回BLAST搜索结果
MaxHom参数选项
最低序列比对一致性
空位间隔罚分
空位延伸罚分
比对矩阵
最大击中值
选择保存分析结果
是否返回多序列比对结果
HTML结果形式
AGAPE结果
PROF/PHD结果形式
以下拉框中所指定的输入格式将待测序列粘贴此提交栏
服务器运行程序信息
ProSite模体搜索结果
低复杂区域过滤程序
ProDom结构域搜索结果
二硫键识别结果
PHD程序信息
PHD预测结果
PROF预测结果
球状蛋白预测结果
Ambivalent
序列识别结果
PredictProtein 分析结果
PredictProtein 分析结果
跨膜区
非跨膜区
Loop
Helix
Sheet
(2)
蛋白质三维结构预测
方法
特点
工具
同源建模法
( Homology/
Comparative modelling
)
基于序列同源比对,对于序列相似度>30%的序列模拟比较有效,最常用的方法
SWISS-MODEL, CPHmodels
串线法/折叠识别法
(Threading/Fold recognition)
“穿”入已知的各种蛋白质折叠骨架内,适于对蛋白质核心结构进行预测,计算量大
THREADER,3D-PSSM
从头预测法
(
Ab initio/De novo methods )
基于分子动力学,寻找能量最低的构象,计算量大,只能做小分子预测
HMMSTR/ ROSSETA
方法一:同源模建 comparative modeling
1.同源模建的基础
蛋白质的三级结构比一级结构更保守。研究表明
如果两个蛋白质的同源性达到50%,二者90%的Ca的RMS
小于1埃。
2.原理:
分子表面的回折区。
相似的时候,该蛋白质的结构可以被模建。
3.同源模建的前提和条件:
要模建的目标蛋白必须有一个或多个已知结构的与
之同源(同源性不低于25%)的蛋白。
数据库:蛋白质结构、序列数据
计算机:工作站
分子模拟系统:软件系统
4.同源模建的发展历史
5.同源模建的主要算法
restraints)
(1)刚体装配模建
从一些刚体包括核心区、环区和侧链来构造模型,这些刚体都来自分解的相关结构(参考蛋白)。模型的装配涉及计算一个框架,这个框架定义为折叠模式的保守区域的模板原子的平均,并把刚体装进框架。
(2)片段匹配模建
依赖于从模板蛋白的保守原子的相近位置来计算其它原子的坐标。它可以通过使用蛋白质结构的短片数据库、能量或几何规则、以及这些标准的某些联合来完成。
(3)空间制约满足:
首先从参考蛋白结构中抽取出一些空间制约条件,将这些制约条件用几率密度函数来表示,然后根据氨基酸类型、等位残基的主链构象和序列之间局部的相似程度而对空间制约条件施加以不同的权重因子。模建时将几率密度函数应用到未知结构蛋白质序列上,通过优化分子的几率密度函数使制约条件有最小的冲突而得到目标蛋白的三维结构,整个优化过程通过分子力学和分子动力学模拟来实现
。
6. 同源建模法分析步骤:
常用数据库
数据库
网站
备注
PDB
http://www.rcsb.org/pdb/home/home.do
主要的蛋白质三维结构数据库
MMDB
http://www.ncbi.nlm.nih.gov/Structure/MMDB/mmdb.shtml
NCBI维护的蛋白质结构数据库
Psdb
http://www.psc.edu/~deerfiel/PSdb/
从PDB和NRL-3D数据库中衍生出的数据库,含二级结构和三维结构信息
3DinSight
http://gibk26.bse.kyutech.ac.jp/jouhou/3dinsight/3DinSight.html
整合了结构、性质(氨基酸组成、热力学参数等)、生物学功能(突变点,相互作用等)的综合数据库,
FSSP
http://www.ebi.ac.uk/dali//fssp/
根据结构比对的蛋白质结构分类数据库
SCOP
http://scop.mrc-lmb.cam.ac.uk/scop/
蛋白质结构分类数据库,将已知结构蛋白进行有层次地分类
CATH
http://www.cathdb.info/latest/index.html
另一个有名的蛋白质结构和结构域主要结构分类库
MODBASE
http://modbase.compbio.ucsf.edu/modbase-cgi/index.cgi
用同源比对法生成的模型结构数据库
Enzyme Structure
http://www.ebi.ac.uk/thornton-srv/databases/enzymes/
从PDB数据库中整理已知结构的酶蛋白数据库
HSSP
http://www.sander.ebi.ac.uk/hssp/
根据同源性到处的蛋白质结构数据库
模板搜索与比对
工具
网站
备注
PSI-BLAST
http://www.ncbi.nlm.nih.gov/BLAST/
位置特异性叠代BLAST,可用来搜索远源家族序列
FASTA3
http://www.ebi.ac.uk/fasta33/
位于EBI的序列比对工具
SSEARCH
http://vega.igh.cnrs.fr/bin/ssearch-guess.cgi
采用Smith/Waterman法来进行序列比对
ClustalW
http://www.ebi.ac.uk/Tools/clustalw/index.html
多序列比对工具,位于EBI
T-Coffee
http://www.ebi.ac.uk/t-coffee/
用多种方法(如ClustalW、DIalign等)来构建多序列比对
Multalin
http://bioinfo.genopole-toulouse.prd.fr/multalin/multalin.html
一个老牌的多序列比对工具
Dali
http://www.ebi.ac.uk/dali/
三维结构比对网络服务器
VAST
http://www.ncbi.nlm.nih.gov/Structure/VAST/vast.shtml
基于向量并列分析算法的三维结构比对工具
SAM-T99
http://www.soe.ucsc.edu/research/compbio/sam.html
用HMM法搜索蛋白质远源同源序列
同源建模法
工具
网站
备注
SWISS-MODEL
http://swissmodel.expasy.org/
完整建模程序,采用同源性鉴定来确定模板蛋白,用户也可以自定义模板进行分析
CPHmodels
http://www.cbs.dtu.dk/services/CPHmodels/
基于神经网络的同源建模工具,用户只需提交序列,无高级选项
EsyPred3D
http://www.fundp.ac.be/urbm/bioinfo/esypred/
采用神经网络来提高同源建模准确性的预测工具
3Djigsaw
http://www.bmm.icnet.uk/servers/3djigsaw/
根据同源已知结构蛋白来建模的预测工具
MODELLER
http://www.salilab.org/modeller/
一个广泛使用的同源建模软件,需要用户对脚本有一定的了解
串线法
工具
网站
备注
3D-PSSM
http://www.sbg.bio.ic.ac.uk/~3dpssm/index2.html
第一个运用1D-3D序列profile来预测蛋白质折叠结构的网络服务器
Fugue
http://www-cryst.bioc.cam.ac.uk/~fugue/
以序列—结构比对搜索数据库来预测蛋白质折叠
HHpred
http://toolkit.tuebingen.mpg.de/hhpred
基于HMM-HMM比对搜索多个数据库来预测给定序列的的折叠结构
LOOPP
http://cbsuapps.tc.cornell.edu/loopp.aspx
学习、观察和输出蛋白质模式和结构工具
THREADER
http://bioinf.cs.ucl.ac.uk/threader/
一个老牌的线索分析软件,对搜索远源蛋白序列较敏感
PROSPECT
http://compbio.ornl.gov/structure/prospect/index.html
蛋白质结构预测和评价工具包,能以一种非常简单的方式运行,对于高级用户,也提供了很多的可选项
123D+
http://123d.ncifcrf.gov/123D+.html
结合了序列概形,二级结构信息和接触势能来将待测蛋白“穿入”一系列结构来预测结构
SAM-T02
http://www.soe.ucsc.edu/research/compbio/HMM-apps/T02-query.html
基于HMM方法的蛋白质结构预测
GenThreader
http://bioinf.cs.ucl.ac.uk/psipred/psiform.html
使用结构评分和基于神经网络序列比对来也测蛋白折叠结构
蛋白质三维结构预测
主要参数/选项
粘贴protein.txt中
一条蛋白质序列
输入用户Email(选填)
比对e值
参照模板序列数目
输出结果
下载pdb格式文件
与模板序列比对结果,并显示二级结构区域
方法二:折叠识别/ 穿线方法
对蛋白质结构的预测
背景:序列比对后所击中的相似序列不是完整的
而是一段一段的结构域,也可以通过二级结构预测
和折叠识别(fold recognition)找到合适的折叠子,
再以这些已知结构的折叠子为模板来构建模型。
折叠识别/ 穿线方法
折叠识别/ 穿线方法
通过目的蛋白序列与已知折叠子的逐一比对,计算出
未知结构序列折叠成各种已知折叠子的可能性;
折叠子进行预测。
http://www.sbg.bio.ic.ac.uk/~phyre/index.cgi
折叠识别或穿线法
目标序列=SHPALTQLRALRYCKEIPALDPQLLDWLLLEDSMTKRFEQQ…
可能折叠的库(哪些具有已知序列和结构):
序列-结构比对
目标序列=SHPALTQLRALRYCKEIPALDPQLLDWLLLEDSMTKRFEQQ…
=t1t2t3t4t5…tn
已知折叠结构的序列=s1s2s3s4s5…s n
已知折叠结构的位置=p1p2p3p4p5…pn
怎样将目标序列与结构进行比对?
同源模建与结构类型识别方法的比较
蛋白质家族与蛋白质结构类型
Family 蛋白质家族依据序列同源性将蛋白质分为不同的家族:一般将序列同源性大于30%的蛋白质归属为一个家族。一个蛋白质家族的成员可能由一个共同的祖先进化而来。
自然界存在的可能蛋白质家族数目大约为23100种。同一个家族的蛋白质一般具有相近的功能和相同的结构类型(折叠模式)。
输入用户Email(学术邮箱,必需)
蛋白质描述(选填)
序列提交框(氨基酸单字母)
输入用户Email(必需)
蛋白质描述(选填)
序列提交框(氨基酸单字母)
-http://www.sbg.bio.ic.ac.uk/~phyre/
二级结构预测
序列比对结果
序列比对一致性
模板长度
靶标蛋白模型
模板蛋白结构分类信息
折叠子描述
工具
网站
备注
Swiss-PdbViewer
http://ca.expasy.org/spdbv/
一个界面非常友好的工具,可以分析蛋白质的结构性质,比较活性位点或突变点
Jmol
http://jmol.sourceforge.net/
一个基于Java语言开发的三维观察工具,大多是作为一个内嵌式网页工具快速游览结构数据库数据
MolMol
http://www.mol.biol.ethz.ch/wuthrich/software/molmol/
免费的PDB三维分子观察软件,可以通过处理生成很漂亮的图形文件
PyMol
http://pymol.sourceforge.net/
一个基于开源的三维观察工具,有很多额外的插件来提升功能
Rasmol
http://www.bernstein-plus-sons.com/software/rasmol/
很有名的三维观察软件,操作界面简介,用命令行实现多种功能
VMD
http://www.ks.uiuc.edu/Research/vmd/
用内建的脚本来浏览、分析三维结构,还可以以动画的形式模拟蛋白质结构
Chime
http://www.mdl.com/products/framework/chime/index.jsp
网络游览器插件,可以在网页中直接观察PDB格式的文件
Chimera
http://www.cgl.ucsf.edu/chimera/index.html
免费分子模拟显示程序,还包括结构比对、药物筛选等功能
ICM-Browser
http://www.molsoft.com/icm_browser.html
三维分子游览工具,有序列比对显示功能,由MolSodt公司免费推出
常用蛋白质三维结构观察和修改工具
Chime网络游览器插件
PLUGINS文件夹中会有:
npchime.dll (plugins folder)
npchime.zip (plugins folder, used for LiveConnect)
NOTE: Do not unzip this file
chimepro.html (plugins folder, the release notes for Chime)
chime26.isu (plugins folder, used to uninstall Chime)
sculptapi.dll (Windows System folder, used for Sculpt)
ChimeShim.dll (plugins folder, Internet Explorer only)
SWISS-PdbView观察三维模型
菜单栏/工具栏
图层窗口
主窗口
序列联配窗口
控制面板
Ramachandran图
结构叠加
蛋白质序列分析
蛋白质一级序列
蛋白质基本理化性质分析
蛋白质亲疏水性分析
跨膜区结构预测
卷曲螺旋预测
翻译后修饰位点预测
蛋白质二级结构
蛋白质二级结构预测
蛋白质序列信号位点分析
蛋白质超二级结构
蛋白质结构域分析
蛋白质三级结构
蛋白质三维结构模拟
蛋白质分类
蛋白质家族分析
蛋白质序列分析汇总表
课程总结
课程总结
四、蛋白质结构预测的应用
蛋白质的分子设计
蛋白质分子设计与基因工程技术、多肽合成技术和化学合成技术一起开创了新药设计和开发研究的新局面。
这个领域的研究方向主要包括蛋白三维结构预测、蛋白质结构功能关系研究、蛋白相互作用、蛋白与DNA相互作用、蛋白质突变体的分子设计、全新蛋白质设计等。
1. 分子设计的意义
分子生物学最激动人心的进展之一是能够设计和生产新的蛋白质分子。重组DNA技术使人们能够定向改变蛋白质中的氨基酸序列,包括氨基酸的取代、插入或缺失,甚至包括蛋白质的融合等。
蛋白质工程则是在深入了解蛋白质结构与功能关系的基础上,利用分子生物学方法和手段有目的地改造蛋白质,使之性能得到改善。作为蛋白质工程的组成部分,蛋白质分子设计在其中起着十分重要的作用。
2. 分子设计的种类
小改:少数残基的替换,突变或修饰
中改:分子拼接,肽段或结构域的替换
大改:从头设计,全新蛋白质的设计
3.分子设计与蛋白质结构
蛋白质分子内部的电荷分布、相互作用有其特定的结构特征,随意选择突变位点在蛋白质分子中改变氨基酸,不仅达不到预期目的,反而可能影响蛋白质分子的活性中心,使蛋白质的活性降低或丧失 。
4. 蛋白质分子设计的应用
应用1:酶稳定性的改善酶的稳定性
在蛋白质工程的实践中,一般可以通过在酶分子内增加二硫键或静电作用来提高酶分子的稳定性。
例1:核糖核酸酶的稳定性的提高
(1)已知条件:核糖核酸酶三维结构已由晶体衍射方法测定。
分子内有两对二硫键:Tyr24与Asn84正对,二者的Ca之间的距离为6.0A,满足二硫键的特征(二硫键的Ca的平均距离:4.5- 6.8?),可能形成一个潜在的二硫键;二者附近没有干扰形成二硫键的基团;二者离催化活性中心较远,突变后不会影响活性。
(2)设计方案:
将Tyr24与Asn84突变为Cys
实验结果:突变体的稳定性大大提高
应用2:融合蛋白质
应用3:蛋白质活性的改变
应用4:治癌酶的改造
应用5:嵌合抗体和人缘化抗体
尽管蛋白质结构预测和分子设计的现状距离其最终目标还很遥远,方法本身也正处于发展之中,同时有很多的局限性。在现阶段,我们还不能指望它能预测任意一个蛋白质序列的结构,也不能要求它设计的蛋白质个个成功。但很多实例都已证明,以蛋白质结构预测为基础的分子设计还是很有用的。蛋白质结构预测和分子设计应用于蛋白质工程研究时,会大大减少设计突变体的盲目性。
All Rights Reserved Powered by 文档下载网
Copyright © 2011