文档搜索 > 蛋白质的序列分析及结构预测分析

蛋白质的序列分析及结构预测分析


蛋白质的序列分析及结构预测


DNA sequence 

Protein sequence 

Protein structure 

Protein function


一、蛋白质数据库介绍

二、蛋白质序列分析

三、蛋白质结构预测

四、应用 ? 分子设计


一、蛋白质数据库介绍 

蛋白质的结构主要分为四级, 一级结构、二级结构、三级结构以及四级结构。依据这种结构层次, 将蛋白质数据库分为:

1. 蛋白质序列数据库:PIRSWISS-PROTNCBI , 这些数据库的数据主要以蛋白质的序列为主, 并赋予相应的注释;

2. 蛋白质模体及结构域数据库:PROSITEPfam, 这些数据库主要收集了蛋白质的保守结构域和功能域的特征序列;

3. 蛋白质结构数据库: PDB , 这些数据库主要以蛋白质的结构测量数据为主;

4. 蛋白质分类数据库:SCOPCATHFSSP , 这其中有以序列比较为基础的序列分类数据库以及以结构比较为基础的结构分类数据库之分。


蛋白质数据库特征:

  • 这些数据库种类有差别, 但内部是相互联系的.
  • 每个数据库都有指针指向其他数据库, 而且数据库之间的序列以及相应的结构是共享的, 同一种蛋白质依次会出现在不同的数据库.
  • 这样的数据沟通有助于更深层地挖掘蛋白质的内在生物信息, 这些数据库是融序列信息的索取、处理、存储、输出于一身的。

1. 蛋白质序列数据库 

1PIR(protein information resource, PIR)PSD (protein sequence database,  PSD) http://pir.georgetown.edu/pirwww

     PIR-PSD 是一个综合全面的、非冗余的、专业注释的、分类完整的蛋白质序列数据库。PIR-PSD 的序列来自于将GenBank/ EMBL/ DDBJ 三大数据库的编码序列的翻译而成的蛋白质序列、发表的文献中的序列和用户直接提交的序列。

2SWISS-PROT/ TrEMBL数据库   www.expasy.org/swissprot 

数据库由蛋白质序列条目构成, 每个条目包含蛋白质序列、引用文献信息、

分类学信息、注释等, 注释中包括蛋白质的功能、转录后修饰位点、特殊位点

和区域、二级结构、四级结构、与其他序列的相似性、序列残缺与疾病的关系、

序列变异体等信息。

 


2. 模体以及结构域数据库 

  • 模体数据库

1PROSITE 蛋白质家族及结构域数据库( www.expasy.org/prosite/ )

  • PROSITE 数据库收集了有显著生物学意义的蛋白质位点序列、蛋白质特征序列谱库以及序列模型, 并能依据这些特征属性快速可靠地鉴定出一个未知功能蛋白质序列属于哪个蛋白质家族, 即使在蛋白质序列相似性很低的情况下, 也可以通过搜索隐含的功能结构模体(motif)来鉴定, 因此是有效的序列分析数据库。
  • PROSITE 中涉及的序列模式包括酶的催化位点、配体结合位点、金属离子结合位点、二硫键、小分子或者蛋白质结合区域等, 此外PROSITE 还包括由多序列比对构建的序列表谱( profile) , 能更敏感地发现序列中的信息。 

 


PROSITE同时数据库提供了序列分析工具: 

ScanProsite 是用于搜索所提交的序列数据是否包含  PROSITE 数据库中的序列模式或者SWISS-PROT 数据库中已提交的序列模式;

MotifScan 用于查找未知序列中所有可能的已知结构组件, 数据库包括PROSITE序列表谱、PROSITE 模式、Pfam 收集的隐马尔可夫模式( HMM)

 


(2) PRINTS Fingerprint Database www.bioinf.man.ac.uk/dbrowser/PRINTS/ 

这个数据库包含1 500 个蛋白质指纹图谱, 编码9 136 个单一模体。 

(3) BLOCKS ( www.blocks.fhcrc.org/ )

BLOCKS 是通过一些高度保守的蛋白质区域比对出来的无空位的片段。 

模体数据库


  • 蛋白质结构域数据库

  (1 ) 蛋白质家族序列比对以及隐马尔可夫模式数据库Pfam( protein families database of alignments and HMMs)

Pfam 是蛋白质家族序列比对以及隐马尔可夫模式数据库,其网址是: www.sanger.ac.uk/Software/Pfam/index.shtml。 

(2) 蛋白质结构域数据库ProDom

       http://prodes.toulouse.inra.fr/prodom/doc/prodom.html 

(3) SMART

    SMART 是一个简单的结构研究工具, 可对可转移的遗传因子进行鉴定和注解, 以及分析结构域结构, 可以检测出500 多个参与信号传导、胞外和染色体相关蛋白质的结构域家族, 对这些结构域又在系统进化树分布、功能分类、三级结构和重要的功能残基方面做了注解。

    http://smart.embl-heidelberg.de/

 


3. 蛋白质结构数据库 

PDB( protein data bank , PDB)     http://www.rcsb.org/pdb/ 

PDB 包括了蛋白质、核酸、蛋白质-核酸复合体以及病毒等生物大分子结构数据, 主要是蛋白质结构数据, 这些数据来源于几乎全世界所有从事生物大分子结构研究的研究机构, 并由RCSB 维护和注释。

 


4.蛋白质结构分类数据库 

(1) CATH 数据库

  www.biochem.ucl.ac.uk/bsm/cathnew/index.html 

(2) SCOP 蛋白质结构分类数据库( structural classification of protein database,SCOP)

      scop.mrclmb.cam.ac.uk/scop/index.html 
 

 


二、蛋白质的序列分析 

1. 蛋白质序列信息的获取

        

2. 蛋白质序列分析

         


1. 蛋白质序列信息的获取 

1 直接测序

2 翻译编码的DNA序列  ORF Finder

3)在数据库中搜索

  • 运用ID 号、入口号、条目号等搜索。
  • 运用关键词搜索
  • 其他方式搜索。如可以通过引用序列的文献、序列的作者、序列提交的日期等进行搜索。

(1)直接测序 
 

e.g. Protein Sequencing and Identification

by Tandem Mass Spectrometry,

即用串联质谱仪测序 

1. 蛋白质序列信息的获取


串联质谱及其作用 
 
 
 

  •  两个或更多的质谱连接在一起,称为串联质谱。
  • 最简单的串联质谱(MS|MS)由两个质谱串联而成,其中第一个质量分析器(MS1)将离子预分离或加能量修饰,由第二级质量分析器(MS2)分析结果。 
 
 
 

   


       串联质谱仪的组合方式:

   (1) 磁分析器-静电分析器-磁分析器 
(2) 静电分析器-磁分析器-静电分析器 
(3) 三重四极滤质器质谱仪 
(4) 混合式串联质谱仪,如MA-ESA-Q-Q。实现串联质谱有空间串联和时间串联两种方式。


  优点:

  • 可以避免底物分子产生的干扰,大大降低背景噪音。
  • 其次,可使分子离子通过与反应气的碰撞来产生断裂。
  • 因此能提供更多的结构信息,所以串联质谱特别适合

于复杂组分体系且干扰严重的样品中低含量组分分析测

定,具有比GC-MS和LC-MS等一级质谱更高的选择性和灵

敏度。

 


Masses of Amino Acid Residues


Protein backbone 

H...-HN-CH-CO-NH-CH-CO-NH-CH-CO-…OH 

Ri-1 

Ri 

Ri+1 

AA residuei-1 

AA residuei 

AA residuei+1 

N-terminus 

C-terminus


Breaking Protein into Peptides and Peptides into Fragment Ions 

  • Proteases, e.g. trypsin(胰蛋白酶), break protein into peptides.
  • A Tandem Mass Spectrometer(串联式质谱仪) further breaks the peptides down into fragment ions and measures the mass of each piece.
 
 

General for sequencing


Breaking Protein into Peptides and Peptides into Fragment Ions 

  • Mass Spectrometer accelerates the fragmented ions; heavier ions accelerate slower than lighter ones.
  • Mass Spectrometer measure mass/charge ratio of an ion.
 
 

General for sequencing


Peptide Fragmentation 

  • Peptides tend to fragment along the backbone.
  • Fragments can also loose neutral chemical groups like NH3 and H2O.
 

H...-HN-CH-CO    .  .   .   NH-CH-CO-NH-CH-CO-…OH 

Ri-1 

Ri 

Ri+1 

H+ 

Prefix Fragment 

Suffix Fragment 

Collision Induced Dissociation


N- and C-terminal Peptides 

G

F

P

N

A

G

F

P

N

A

G

F

P

N

A

G

F

P

N

A

G

F

P

N

A

N-terminal peptides 

C-terminal peptides


Terminal peptides and ion types 

G

F

P

N

Peptide 

Mass (D)    57  +  97  + 147 + 114  = 415 

H2O

Peptide 

Mass (D)    57  +  97  + 147 + 114 – 18 = 397 

G

F

P

N

H2O

without


N- and C-terminal Peptides 

G

F

P

N

A

G

F

P

N

A

G

F

P

N

A

G

F

P

N

A

G

F

P

N

A

N-terminal peptides 

C-terminal peptides 

415 

     486 

301 

154 

57 

71 

185 

332 

429


N- and C-terminal Peptides 

N-terminal peptides 

C-terminal peptides 

415 

     486 

301 

154 

57 

71 

185 

332 

429


Peptide Fragmentation 

y3 

b2 

y2 

y1 

b3 

a2 

a3 

                                       HO                  NH3+

                                         |                       |

                     R1       O              R2     O             R3      O             R4

                |      ||                |      ||               |       ||              |

H -- N --- C --- C --- N --- C --- C --- N --- C --- C --- N --- C -- COOH

        |       |               |        |               |       |               |

       H      H             H       H             H      H             H  

b2-H2O  

y3 -H2O 

b3- NH3 

y2 - NH3


Mass Spectra 

G 

V 

D 

L 

K 

mass 


57 Da = ‘G’ 

99 Da = ‘V’ 



  D 



  • The peaks in the mass spectrum:
    • Prefix
    • Fragments with neutral losses (-H2O, -NH3)
    • Noise and missing peaks.
 

and Suffix Fragments. 

D 

H2O


Protein Identification with MS/MS 

G 

V 

D 

L 

K 

mass 


Intensity 

mass 


MS/MS 

Peptide Identification:

 


Tandem Mass-Spectrometry


Breaking Proteins into Peptides 

peptides 

MPSER 

…… 

GTDIMR 

PAKID 

…… 

HPLC 

To

MS/MS 

MPSERGTDIMRPAKID...... 

protein


Mass Spectrometry 

Matrix-Assisted Laser Desorption/Ionization (MALDI)

基质辅助激光解吸质谱


基质辅助激光解吸飞行时间质谱仪  
MALDI-TOF-MS 

  • MALDI-TOF-MS是近年来发展起来的一种软电离新型有机

质谱。近年来已成为检测和鉴定多肽、蛋白质、多糖、核苷酸、

糖蛋白、高聚物以及多种合成聚合物的强有力工具。

  • 原理:当用一定强度的激光照射样品与基质形成的共结晶薄

膜,基质从激光中吸收能量,基质-样品之间发生电荷转移使

得样品分子电离,电离的样品在电场作用下加速飞过飞行管道,

根据到达检测器的飞行时间不同而被检测,即测定离子的质量

电荷之比与离子的飞行时间成正比来检测离子。 

  • MALDI-TOF-MS的中心技术就是依据样品的质荷比(m/z)

的不同来进行检测,并测得样品分子的分子量。 


Tandem Mass Spectrometry 

Scan 1708 

LC 

Scan 1707 

MS 

MS/MS 

Ion

Source 

MS-1 

collision

cell 

MS-2


多肽片段指纹图谱(PFF) 

    步骤:用酶专一性酶解蛋白质,经过分离,得到的肽段在质谱中被选择和破碎后得到MS/MS谱图,与数据库中的谱图比较进行鉴定

   

    代表方法:

    LC-ESI-MS/MS

    2D-LC-MS/MS(shotgun)  


1. 蛋白质序列信息的获取 

(2)翻译编码的DNA序列

  e.g.用“ORF Finder”程序找到DNA的开放阅读框。

网址:ncbi.nlm.nih.gov/gorf/gorf.html

 


1. 蛋白质序列信息的获取 

(3)在数据库中搜索

e.g. PIR-PSD database:

       pir.georgetown.edu/pirwww

      

      SWISS-PROT/TrEMBL database  

      www.expasy.org/swissprot


  • 目前大部分蛋白质序列是通过DNA 人工翻译过来的, 实际上很少有人能获得真正的蛋白质, 因而实验证据就很难直接获得, 因此对蛋白质序列初始分析是很有价值的。
  • 比如,通过一些序列分析工具进行蛋白质理化特性的预测、修饰位点的预测等。
 
 

2. 蛋白质序列分析


1.蛋白质序列的基本性质分析

   理化性质分析,疏水性分析,跨膜区分析,信号肽预测,Coil区分析,亚细胞定位

2.序列数据库搜索

    相似性搜索,模体的搜索

3.结构域定位

4.空间结构预测

    二级结构及三级结构预测,结构预测方法评价

  

蛋白质序列分析主要内容:


1. 蛋白质序列的基本性质分析

(1)理化性质分析

     分子质量、分子式、理论等电点、氨基酸组成、消光系数、稳定性等理化特性。

例,利用ProtParam工具

http://us.expasy.org/tools/protparam.html


0.109 

-0.542 

总体亲水性 

105.18 

63.73 

脂肪族指数 

29.59 

31.72 

不稳定性指数 

>10 

>10 

大肠杆菌,

体内 

>20 

>20 

酵母,体内 

30 

30  

哺乳动物,

体外 

半衰期

(小时) 

5960 

75455 

消光系数(280nm 

3848 

5014 

总原子数 

6.20 

4.47 

理论等电点pI 

26899.9 

36904.4 

分子量 

C1211H1951N319O364S3 

C1615H2420N428O535S16 

分子式 

CLAP 

CL 

理化指标 

CL和CLAP的理化性质预测结果  

CL:组织蛋白酶L  

CLAP:组织蛋白酶L相关蛋白


(2)  疏水性分析

     氨基酸侧链的疏水性用从各氨基酸减去甘氨酸疏水性之值来表示,蛋白质的疏水性在保持蛋白质三级结构的形成和稳定中起着重要作用。

e.g.利用ProtScale工具

http://web.expasy.org/protscale/

利用BioEdit软件分析


海参溶菌酶亲水性/疏水性分析 

Score > 0,表示疏水性; Score <0,表示亲水性


(3)  跨膜区分析

     蛋白质含有跨膜区提示它可能作为膜受体起作用,也可能是定位在膜上的锚定蛋白或离子通道蛋白。

例,使用TMHMM Server v.2.0在线分析

http://www.cbs.dtu.dk/services/TMHMM/

 


铝激活苹果酸的转运蛋白(TaALMT1)跨膜结构分析


(4)  信号肽预测 

  •    信号肽:指分泌蛋白表达时氨基端的20余个氨基酸,将引导该蛋白质最终分泌至细胞外,但这段信号肽会被信号肽酶切掉,所以成熟的分泌蛋白是不含这段信号肽的。
  •    用于指导蛋白质的跨膜转移(定位)的N末端的氨基酸序列,一般由15-30个氨基酸组成。
  •    使用SignalP在线分析 

http://www.cbs.dtu.dk/services/SignalP/ 

 


海参溶菌酶信号肽预测 

Conclusion:cleavage site between pos. 20 and 21: ASG-QV


(5) Coil区分析

  • 蛋白质中由2-7条α螺旋链相互缠绕形成类似麻花状结构的总称;
  • 主要存在形式是2-5条相互缠绕形成的平行或反平行同寡聚体或异寡聚体;
  • 是控制蛋白质寡聚化的元件,转录因子、骨架蛋白、动力蛋白、膜蛋白、酶等;
  • 七肽重复区。

e.g. 使用COILS服务器分析

http://www.ch.embnet.org/software/COILS_form.html


(6)  亚细胞定位

  • 根据氨基酸组成可以进行亚细胞定位

不同细胞器多具不同的理化环境,它会根据蛋白质的结构及表面理化特征选择性容纳蛋白质;蛋白质表面直接暴露于细胞器环境中,它由序列折叠过程决定,而后者取决于氨基酸组成。

  • 亚细胞定位的步骤
  • 在线分析工具

e.g.使用TargetP

http://www.cbs.dtu.dk/services/TargetP/ 

 


组织蛋白酶CL和相关蛋白CLAP的亚细胞定位 

4.3 

13.0 

4.3 

17.4 

4.3 

13.0 

13.0 

4.3 

26.1 

CLAP 

- 

- 

4.3 

4.3 

4.3 

8.7 

8.7 

34.8 

34.8 

CL 

细胞支架 

 

高尔

基体 

分泌性

小囊泡 

  

    

 

线

 

 

 

各亚细胞位点出现可能性(% 

 

 结果证明,CLCLAP出现几率最高的位点都为胞质,说明它们都为

 胞浆内蛋白,这也为今年来在溶酶体内外都发现组织蛋白酶活性提供

 了证据。


(1)相似性搜索(或同源搜索) 

一个新序列与序列数据库中的序列比对,

    从而找到同源或者相似序列。

常用程序是BLASTp 

2. 序列数据库搜索


(2) 模体(motif)的搜索

  • 这是另一种序列搜索方法, 其目的是寻找蛋白质中结构域或者功能域。
  • 这个方法不是给每个位置的氨基酸打分, 然后得到一个相似程度, 而是直接描述关键的几个保守残基, 同时忽略其他位置的氨基酸多态性, 这些保守的序列有时会称为标志” 

   ( signature) , 就是所谓的模式序列( pattern )  

 


Motif 搜索

  • 即模体搜索,是序列中局部的保守区域,或是一组序列中共有的一小段序列模式。
  • 使用PROSITE数据库进行motif搜索

       www.expasy.org/prosite

  • 模式序列常表示为:

          [AG]-x-V-x(2)-x-{YW}

          [ ] shows either amino acid

          x is any amino acid

          x(2) any amino acid in the next 2 positions

          { } shows any amino acid except these

 


模体的搜索举例:

  • 有序列表示为:

    H-[ FW]-x-[ LIVM ]-x-G-x ( 5 )-[ LV]-H- x( 3)-[DE]

  • 这是描述一个DNA 结合蛋白质家族的, 可以理解为组氨酸, 接着是苯丙氨酸或者色氨酸, 紧接一个氨基酸x, 然后可以是亮氨酸、异亮氨酸、缬氨酸、或者甲硫氨酸?? , 这样一段序列由于处于活性区域或者蛋白质的重要结构区, 所以特别保守, 因此也是序列搜索的目标之一。

 


3. 结构域定位 

  • 通过将序列在数据库中搜索,可以了解到序列的一些信息,接下来就可以进行结构域的定位,这样就对以后的结构预测有了一个比较清醒的认识。
  • 如果蛋白质序列的长度大于500个氨基酸,就可以根据搜索的情况(比如按相似性高低或者结构域多少等)将蛋白质分割成多个不连续的区域,最好将这一段一段的序列分别鉴别。

什么是结构域? 

  • 结构域是在二级结构或超二级结构的基础上形成三级结构的局部折叠区,一条多肽链在这个域范围内来回折叠,但相邻的域常被一个或两个多肽片段连结。
  • 通常由50-300个氨基酸残基组成,其特点是在三维空间可以明显区分和相对独立,并且具有一定的生物功能如结合小分子。模体(motif)是结构域的亚单位,通常由2~3二级结构单位组成,一般为α螺旋、β折叠和环(loop)。
 

结构域定位


二聚体蛋白结构域


结构域和功能域 

  • 对那些较小的球状蛋白质分子或亚基来说,结构域和三级结构是一个意思,也就是说这些蛋白质或亚基是单结构域的,如红氧还蛋白等;
  • 较大的蛋白质分子或亚基其三级结构一般含有两个以上的结构域,即多结构域的,其间以柔性的铰链(hinge)相连,以便相对运动。
  • 结构域有时也指功能域。功能域是蛋白质分子中能独立存在的功能单位,它可以是一个结构域,也可以是由两个或两个以上结构域组成。
 

结构域定位


结构域定位 

  •  结构域是蛋白序列的功能、结构和进化单元 
  • 分析方法:序列比对
  • 单条蛋白质序列可以包含一个或多个结构域

基本类型 

                              
     
     

64  

α-螺旋型  

全β-折叠型  

α/β型 

α+β型


结构域定位分析一般流程: 

(1)探测序列与其他全序列之间有无同源性.如果有,那么这是该段序列为结构域的很好证据,然后进行结构数据库的搜索,也可以搜索注释好的数据库,从而得到一些有关结构域的说明。

(2)分析低复杂度的区域。在多结构域的蛋白质中,这些低复杂度序列常常间隔结构域,长的重复序列特别是pro、glu、ser、thr等常常是连接序列,也是很好的结构域剪接位置。  

结构域定位


结构域定位分析一般流程: 

(3)跨膜区域。由于跨膜结构是一个非常典型的结构,这种结构连续性较强,而且预测容易,准确性也比较高,因此也是一个分割的区域,这样就很容易区分胞外和胞内区域。

(4)卷曲螺旋结构(coiled-coil)。这个结构有时也可能是蛋白质结构域之间的间隔区,可以在COIL网站上预测coiled-coil结构。  

结构域定位


结构域定位分析一般流程: 

(5)二级结构预测。这个方法常常用来预测一个结构中包含的不同折叠子。例如,一个序列中的一部分可能会被预测成只有α-螺旋,而另一个部分可能会被预测成只含有β-折叠,这些都可能预示有域的结构存在。 

(6)如果序列已被成功地分解成成形的结构域,那么重复进行数据库搜索并且进行独立比对是很重要的. 

结构域定位


结构域定位


结构域分析工具

     介于二级和三级结构之间可以明显区分但又相对独立的折叠单元,每个结构域自身形成紧实的三维结构,可以独立存在或折叠,但结构域与结构域之间关系较为松散。

    通常由25-300个氨基酸残基组成;

    全平行结构域、反平行结构域、α+β结构域、 α/β结构域及其他折叠类型。

利用SMART服务器进行结构与分析

http://smart.embl-heidelberg.de/

 


结构域定位分析举例 

实例分析: 

海参溶菌酶序列和其它i型溶菌酶保守区域的比对 

结果:高度保守的2个活性位点(E34和S50)和特有的氨基酸

保守序列MDVGSLSCG(P\Y)(Y\F)QIK


i-型溶菌酶含有两个结构域


模体搜索和结构域定位举例 

实例分析: 

海参i-型溶菌酶3D结构模式图


4. 蛋白质空间结构预测 

1)蛋白质二级结构预测 

  • 蛋白质二级结构是蛋白质分子中重要的组成部件

  是研究蛋白质氨基酸序列和三级结构之间的桥梁。  

  • 基本的二级结构:

α螺旋,β折叠, β转角,

无规则卷曲(coils

以及模体(motif

等蛋白质局部结构组件


  •  蛋白质的二级结构预测的基本依据是每一段相邻的

  氨基酸残基具有形成一定二级结构的倾向。 

    • 二级结构预测问题是模式分类问题。
    • 二级结构预测的目标:判断每一段中心的残基是否 

处于?螺旋、?折叠、转角(或其它状态)之一的

二级结构态,即三态。 

蛋白质二级结构预测


  二级结构的预测方法: 

    • 基于统计和机器学习方法进行预测
    • Chou-Fasman算法
    • GOR算法
    • 多序列列线预测
    • 基于神经网络的序列预测
    • 基于已有知识的预测方法(knowledge based method
    • 混合方法(hybrid system method
 

蛋白质二级结构预测


      二级结构中氨基酸出现频率的影响: 

          氨基酸残基在二级结构元件中出现频率的研究揭示,

某些残基如 Glu Met Ala Leu α螺旋中出现的

频率比在其他二级结构元件中高。相反,Gly Pro

α螺旋中频率很低。但它们在β转角中很高。另一些残基

包括 Val Ile 和芳香族氨基酸在β折叠片中频率很高,

Asp Glu Pro β折叠片中则很低。这表明各种

残基形成各种二级结构的倾向性是不同的。 
 
 

蛋白质二级结构预测


工具 

网站 

备注 

BCM Search

Launcher  

http://searchlauncher.bcm.tmc.edu/ 

包括了常见的蛋白质结构分析程序入口,一般分析可以以此服务器作为起点 

HNN 

http://npsa-pbil.ibcp.fr/cgi-bin/npsa_automat.pl?page=npsa_nn.html 

基于神经网络的分析工具,含序列到结构过程和结构到结构处理 

Jpred 

http://www.compbio.dundee.ac.uk/~www-jpred/submit.html 

基于Jnet神经网络的分析程序,并采用PSI-BLAST来构建序列Profile进行预测,对于序列较短、结构单一的蛋白预测较好 

nnPredict 

http://alexander.compbio.ucsf.edu/~nomi/nnpredict.html 

预测蛋白质序列中潜在的亮氨酸拉链结构和卷曲螺旋 

NNSSP 

http://bioweb.pasteur.fr/seqanal/interfaces/nnssp-simple.html 

基于双层前反馈神经网络为算法,还考虑到蛋白质结构分类信息 

PREDATOR 

http://bioweb.pasteur.fr/seqanal/interfaces/predator-simple.html 

预测时考虑了氨基酸残基间的氢键 

 蛋白质二级结构分析工具


工具 

网站 

备注 

PredictProtein 

http://www.predictprotein.org/ 

提供多项蛋白质性质分析,并有较好准确性 

Prof 

http://www.aber.ac.uk/~phiwww/prof/ 

基于多重序列比对预测工具 

PSIpred 

http://bioinf.cs.ucl.ac.uk/psipred/psiform.html 

提供跨膜蛋白拓扑结构预测和蛋白profile折叠结构识别工具 

SOPMA 

http://npsa-pbil.ibcp.fr/cgi-bin/npsa_automat.pl?page=npsa_sopma.html 

可以比较各种分析方法得到的结果,也可输出一致性结果 

SSPRED 

http://coot.embl.de/~fmilpetz/SSPRED/sspred.html 

基于数据库搜索相似蛋白并构建多重序列比对 

 蛋白质二级结构分析工具(续)


  • PredictProtein
    • http://www.predictprotein.org/
  • 可以获得功能预测、二级结构、基序、二硫键结构、结构域等许多蛋白质序列的结构信息
  • 该方法的平均准确率超过72%,最佳残基预测准确率达90%以上。因此,被视为蛋白质二级结构预测的标准
  • 需要注册帐号用于学术研究
 

蛋白质二级结构预测


PredictProtein 提交界面详解 

提交邮件

地址(必填) 

蛋白名称(可选) 

分析方法


1D序列预测 

PROFsec(默认) 

基于轮廓(profile)神经网络预测蛋白质二级结构 

PROFacc(默认) 

基于轮廓(profile)神经网络预测残基溶剂可及性 

PHDhtm(默认) 

基于多序列比对中预测跨膜区位置和拓扑结构 

ASP(默认) 

识别二级结构中构型变化的氨基酸 

COILS(默认) 

识别卷曲螺旋 

PROFtmb 

识别细菌中Beta桶结构 

序列基序识别 

ProSite(默认) 

搜索序列中保守基序 

SEG(默认) 

过滤序列中低复杂区域 

PredictNLS(默认) 

基于实验数据预测序列核定位区域 

二硫键识别 

DISULFIND(默认) 

识别序列中二硫键位置 

无序结构识别 

PROFbval 

识别序列标准骨架的B-value 

UCON 

预测蛋白质中非3D结构区域 

折叠子识别 

AGAPE 

基于折叠结构识别远源蛋白序列 

残基接触预测 

PROFcon 

预测单链中原子残基接触性 

结构域预测 

ProDom(默认) 

基于序列同源性来预测蛋白质结构域 

CHOP (coming soon) 

预测蛋白质结构域 

结构表面识别 

ConSeq (coming soon) 

预测蛋白质结构表面结构功能关键残基 

分析方法程序详解


跨膜螺旋预测(PHDhtm)专家选项 

Ambivalent序列识别(ASP)专家选项 

CHOP结构域分析工具专家选项


比对内容 

SWISS-PROT数据库返回BLAST搜索结果 

MaxHom参数选项 

最低序列比对一致性 

空位间隔罚分 

空位延伸罚分 

比对矩阵 

最大击中值


选择保存分析结果 

是否返回多序列比对结果 

HTML结果形式 

AGAPE结果 

PROF/PHD结果形式 

以下拉框中所指定的输入格式将待测序列粘贴此提交栏


服务器运行程序信息 

ProSite模体搜索结果 

低复杂区域过滤程序 

ProDom结构域搜索结果 

二硫键识别结果 

PHD程序信息 

PHD预测结果 

PROF预测结果 

球状蛋白预测结果 

Ambivalent

序列识别结果 

PredictProtein 分析结果


PredictProtein 分析结果 

跨膜区 

非跨膜区 

Loop 

Helix 

Sheet


(2) 蛋白质三维结构预测 

方法 

特点 

工具 

同源建模法

( Homology/

Comparative modelling ) 

基于序列同源比对,对于序列相似度>30%的序列模拟比较有效,最常用的方法  

SWISS-MODEL CPHmodels  

串线法/折叠识别法

(Threading/Fold recognition) 

穿入已知的各种蛋白质折叠骨架内,适于对蛋白质核心结构进行预测,计算量大 

THREADER3D-PSSM 

从头预测法

( Ab initio/De novo methods ) 

基于分子动力学,寻找能量最低的构象,计算量大,只能做小分子预测 

HMMSTR/ ROSSETA


方法一:同源模建 comparative modeling

  

  1.同源模建的基础

    蛋白质的三级结构比一级结构更保守。研究表明 

  如果两个蛋白质的同源性达到50%,二者90%的Ca的RMS

  小于1埃。 

   2.原理:

  • 序列高度相似的蛋白质具有相似的三维结构。
  • 同源蛋白质之间具有保守的结构内核,差异仅存在

分子表面的回折区。

  • 当一个蛋白质的序列与一个已知结构的蛋白质序列

相似的时候,该蛋白质的结构可以被模建。

 


  3.同源模建的前提和条件:

    要模建的目标蛋白必须有一个或多个已知结构的与 

之同源(同源性不低于25%)的蛋白。

    数据库:蛋白质结构、序列数据

    计算机:工作站

    分子模拟系统:软件系统

  4.同源模建的发展历史

  •     1969年,Browne利用溶菌酶的结构手工模建了牛乳白蛋白的结构。八十年代,Blundel发展了利用多种同源蛋白质进行结构预测的方法。随着计算机技术的发展、结构测定数据的增加,同源模建技术也在快速发展。

 


5.同源模建的主要算法

  • 刚体装配模建(modeling by rigid body assembly )
  • 片段匹配模建(modeling by segment matching)
  • 空间制约模建(modeling by satisfaction of spatial

             restraints)


(1)刚体装配模建

      从一些刚体包括核心区、环区和侧链来构造模型,这些刚体都来自分解的相关结构(参考蛋白)。模型的装配涉及计算一个框架,这个框架定义为折叠模式的保守区域的模板原子的平均,并把刚体装进框架。

(2)片段匹配模建

      依赖于从模板蛋白的保守原子的相近位置来计算其它原子的坐标。它可以通过使用蛋白质结构的短片数据库、能量或几何规则、以及这些标准的某些联合来完成。

(3)空间制约满足:

      首先从参考蛋白结构中抽取出一些空间制约条件,将这些制约条件用几率密度函数来表示,然后根据氨基酸类型、等位残基的主链构象和序列之间局部的相似程度而对空间制约条件施加以不同的权重因子。模建时将几率密度函数应用到未知结构蛋白质序列上,通过优化分子的几率密度函数使制约条件有最小的冲突而得到目标蛋白的三维结构,整个优化过程通过分子力学和分子动力学模拟来实现  。  

 


6. 同源建模法分析步骤:

    • 多序列比对
      • 与已有晶体结构的蛋白质序列比对
    • 确定是否有可以使用的模板
      • 序列相似度>30%
      • 序列相似度<30%,结合功能,蛋白质一级序列、二级结构或结构域信息
    • 构建三维模型
    • 三维模型准确性检验
      • Whatcheck 程序
      • Ramachandran plot计算检验
    • 手工调整多序列比对,重新拟和,构建新的模型

常用数据库 

数据库 

网站 

备注 

PDB 

http://www.rcsb.org/pdb/home/home.do 

主要的蛋白质三维结构数据库 

MMDB 

http://www.ncbi.nlm.nih.gov/Structure/MMDB/mmdb.shtml 

NCBI维护的蛋白质结构数据库 

Psdb 

http://www.psc.edu/~deerfiel/PSdb/ 

PDBNRL-3D数据库中衍生出的数据库,含二级结构和三维结构信息 

3DinSight 

http://gibk26.bse.kyutech.ac.jp/jouhou/3dinsight/3DinSight.html 

整合了结构、性质(氨基酸组成、热力学参数等)、生物学功能(突变点,相互作用等)的综合数据库, 

FSSP 

http://www.ebi.ac.uk/dali//fssp/ 

根据结构比对的蛋白质结构分类数据库 

SCOP 

http://scop.mrc-lmb.cam.ac.uk/scop/ 

蛋白质结构分类数据库,将已知结构蛋白进行有层次地分类 

CATH 

http://www.cathdb.info/latest/index.html 

另一个有名的蛋白质结构和结构域主要结构分类库 

MODBASE 

http://modbase.compbio.ucsf.edu/modbase-cgi/index.cgi 

用同源比对法生成的模型结构数据库 

Enzyme Structure 

http://www.ebi.ac.uk/thornton-srv/databases/enzymes/ 

PDB数据库中整理已知结构的酶蛋白数据库 

HSSP 

http://www.sander.ebi.ac.uk/hssp/ 

根据同源性到处的蛋白质结构数据库


模板搜索与比对 

工具 

网站 

备注 

PSI-BLAST 

http://www.ncbi.nlm.nih.gov/BLAST/ 

位置特异性叠代BLAST,可用来搜索远源家族序列 

FASTA3 

http://www.ebi.ac.uk/fasta33/ 

位于EBI的序列比对工具 

SSEARCH 

http://vega.igh.cnrs.fr/bin/ssearch-guess.cgi 

采用Smith/Waterman法来进行序列比对 

ClustalW 

http://www.ebi.ac.uk/Tools/clustalw/index.html 

多序列比对工具,位于EBI 

T-Coffee 

http://www.ebi.ac.uk/t-coffee/ 

用多种方法(如ClustalWDIalign等)来构建多序列比对 

Multalin 

http://bioinfo.genopole-toulouse.prd.fr/multalin/multalin.html 

一个老牌的多序列比对工具 

Dali 

http://www.ebi.ac.uk/dali/ 

三维结构比对网络服务器 

VAST 

http://www.ncbi.nlm.nih.gov/Structure/VAST/vast.shtml 

基于向量并列分析算法的三维结构比对工具 

SAM-T99 

http://www.soe.ucsc.edu/research/compbio/sam.html 

HMM法搜索蛋白质远源同源序列


同源建模法 

工具 

网站 

备注 

SWISS-MODEL 

http://swissmodel.expasy.org/ 

完整建模程序,采用同源性鉴定来确定模板蛋白,用户也可以自定义模板进行分析 

CPHmodels 

http://www.cbs.dtu.dk/services/CPHmodels/ 

基于神经网络的同源建模工具,用户只需提交序列,无高级选项 

EsyPred3D 

http://www.fundp.ac.be/urbm/bioinfo/esypred/ 

采用神经网络来提高同源建模准确性的预测工具 

3Djigsaw 

http://www.bmm.icnet.uk/servers/3djigsaw/ 

根据同源已知结构蛋白来建模的预测工具 

MODELLER 

http://www.salilab.org/modeller/ 

一个广泛使用的同源建模软件,需要用户对脚本有一定的了解


串线法 

工具 

网站 

备注 

3D-PSSM 

http://www.sbg.bio.ic.ac.uk/~3dpssm/index2.html 

第一个运用1D-3D序列profile来预测蛋白质折叠结构的网络服务器 

Fugue 

http://www-cryst.bioc.cam.ac.uk/~fugue/ 

以序列结构比对搜索数据库来预测蛋白质折叠 

HHpred 

http://toolkit.tuebingen.mpg.de/hhpred 

基于HMM-HMM比对搜索多个数据库来预测给定序列的的折叠结构 

LOOPP 

http://cbsuapps.tc.cornell.edu/loopp.aspx 

学习、观察和输出蛋白质模式和结构工具 

THREADER 

http://bioinf.cs.ucl.ac.uk/threader/ 

一个老牌的线索分析软件,对搜索远源蛋白序列较敏感 

PROSPECT 

http://compbio.ornl.gov/structure/prospect/index.html 

蛋白质结构预测和评价工具包,能以一种非常简单的方式运行,对于高级用户,也提供了很多的可选项 

123D+ 

http://123d.ncifcrf.gov/123D+.html 

结合了序列概形,二级结构信息和接触势能来将待测蛋白穿入一系列结构来预测结构 

SAM-T02 

http://www.soe.ucsc.edu/research/compbio/HMM-apps/T02-query.html 

基于HMM方法的蛋白质结构预测 

GenThreader 

http://bioinf.cs.ucl.ac.uk/psipred/psiform.html 

使用结构评分和基于神经网络序列比对来也测蛋白折叠结构


蛋白质三维结构预测 

  • SWISS-MODEL工具
    • http://www.expasy.ch/swissmod/SWISS-MODEL.html
  • 同源建模方法
  • 与PDB数据库已知结构的蛋白质序列比对进行预测

主要参数/选项 

粘贴protein.txt

一条蛋白质序列 

输入用户Email(选填) 

       比对e

参照模板序列数目


输出结果 

下载pdb格式文件


与模板序列比对结果,并显示二级结构区域


方法二:折叠识别/ 穿线方法

             对蛋白质结构的预测 

背景:序列比对后所击中的相似序列不是完整的

而是一段一段的结构域,也可以通过二级结构预测

和折叠识别(fold recognition)找到合适的折叠子,

再以这些已知结构的折叠子为模板来构建模型。


折叠识别/ 穿线方法 

  •  观察:有限的蛋白质折叠种类(~1,000?
  • 从头开始来预测蛋白质结构不同,我们可以从有限的蛋白质折叠条目中得到正确的结果。
  • 基于序列技巧可以做到这一点,或者通过穿线法将序列按顺序投到模板上,并评价每一个匹配好坏程度

 


折叠识别/ 穿线方法 

  •  原理:将序列穿入已知的各种蛋白质折叠子骨架内,

通过目的蛋白序列与已知折叠子的逐一比对,计算出

未知结构序列折叠成各种已知折叠子的可能性;

  • 折叠子一般包括一个或多个蛋白质超家族;
  • 每个折叠子的结构内核有确定的结构特征;
  • 基于序列同源性很低的蛋白质都可能存在结构相同的

  折叠子进行预测。 

  • 例如,通过PHYRE系统进行折叠识别预测

http://www.sbg.bio.ic.ac.uk/~phyre/index.cgi

 


折叠识别或穿线法 

目标序列=SHPALTQLRALRYCKEIPALDPQLLDWLLLEDSMTKRFEQQ

可能折叠的库(哪些具有已知序列和结构): 


序列-结构比对 

目标序列=SHPALTQLRALRYCKEIPALDPQLLDWLLLEDSMTKRFEQQ

=t1t2t3t4t5…tn 
 

已知折叠结构的序列=s1s2s3s4s5…s n

已知折叠结构的位置=p1p2p3p4p5…pn 

怎样将目标序列与结构进行比对?

 


同源模建与结构类型识别方法的比较 

蛋白质家族与蛋白质结构类型

        Family 蛋白质家族依据序列同源性将蛋白质分为不同的家族:一般将序列同源性大于30%的蛋白质归属为一个家族。一个蛋白质家族的成员可能由一个共同的祖先进化而来。

     自然界存在的可能蛋白质家族数目大约为23100种。同一个家族的蛋白质一般具有相近的功能和相同的结构类型(折叠模式)。


  • 3D-PSSM工具
    • http://www.sbg.bio.ic.ac.uk/~3dpssm/index2.html
  • 由英国伦敦帝国理工学院维护,其数据库中含有9864个蛋白折叠结构
  • 3D-PSSM先用PSI-BLAST标准方法通过多序列比对得到轮廓(profile),然后对家族中的一系列成员进行结构比对得出该家族的结构轮廓,接着用线串法将模板结构轮廓和待测蛋白的序列轮廓进行1D-3D轮廓之间的比对,此外也考虑了溶剂可及性和二级结构信息

输入用户Email(学术邮箱,必需) 

蛋白质描述(选填) 

序列提交框(氨基酸单字母)


输入用户Email(必需) 

蛋白质描述(选填) 

序列提交框(氨基酸单字母) 

  • Phyre

 -http://www.sbg.bio.ic.ac.uk/~phyre/

  • 3d-PSSM的升级版,增加了fold数据,并且性能上提高10%-15%,采用了新的分析界面

二级结构预测


序列比对结果 

序列比对一致性 

模板长度 

靶标蛋白模型 

模板蛋白结构分类信息 

折叠子描述


工具 

网站 

备注 

Swiss-PdbViewer 

http://ca.expasy.org/spdbv/ 

一个界面非常友好的工具,可以分析蛋白质的结构性质,比较活性位点或突变点 

Jmol 

http://jmol.sourceforge.net/ 

一个基于Java语言开发的三维观察工具,大多是作为一个内嵌式网页工具快速游览结构数据库数据 

MolMol 

http://www.mol.biol.ethz.ch/wuthrich/software/molmol/ 

免费的PDB三维分子观察软件,可以通过处理生成很漂亮的图形文件 

PyMol 

http://pymol.sourceforge.net/ 

一个基于开源的三维观察工具,有很多额外的插件来提升功能 

Rasmol 

http://www.bernstein-plus-sons.com/software/rasmol/ 

很有名的三维观察软件,操作界面简介,用命令行实现多种功能 

VMD 

http://www.ks.uiuc.edu/Research/vmd/ 

用内建的脚本来浏览、分析三维结构,还可以以动画的形式模拟蛋白质结构 

Chime 

http://www.mdl.com/products/framework/chime/index.jsp 

网络游览器插件,可以在网页中直接观察PDB格式的文件 

Chimera 

http://www.cgl.ucsf.edu/chimera/index.html 

免费分子模拟显示程序,还包括结构比对、药物筛选等功能 

ICM-Browser 

http://www.molsoft.com/icm_browser.html 

三维分子游览工具,有序列比对显示功能,由MolSodt公司免费推出 

常用蛋白质三维结构观察和修改工具


Chime网络游览器插件 

  • Chime- http://www.mdl.com/products/framework/chime/index.jsp
  • 基于游览器的三维结构观察工具
  • 安装后在Internet Explorer下的

PLUGINS文件夹中会有:

npchime.dll     (plugins folder)

npchime.zip     (plugins folder, used for LiveConnect)

NOTE: Do not unzip this file

chimepro.html   (plugins folder, the release notes for Chime)

chime26.isu     (plugins folder, used to uninstall Chime)

sculptapi.dll   (Windows System folder, used for Sculpt)

ChimeShim.dll   (plugins folder, Internet Explorer only)


SWISS-PdbView观察三维模型 

  • SWISS-PdbView工具
    • http://swissmodel.expasy.org/spdbv/
  • 观察和修改分子的三维结构

菜单栏/工具栏 

图层窗口 

主窗口 

  序列联配窗口 

控制面板


Ramachandran 

结构叠加


蛋白质序列分析 

蛋白质一级序列 

蛋白质基本理化性质分析 

蛋白质亲疏水性分析 

跨膜区结构预测 

卷曲螺旋预测 

翻译后修饰位点预测 

蛋白质二级结构 

蛋白质二级结构预测 

蛋白质序列信号位点分析 

蛋白质超二级结构 

蛋白质结构域分析 

蛋白质三级结构 

蛋白质三维结构模拟 

蛋白质分类 

蛋白质家族分析 

蛋白质序列分析汇总表 

课程总结


课程总结


四、蛋白质结构预测的应用 

蛋白质的分子设计


   

    蛋白质分子设计与基因工程技术、多肽合成技术和化学合成技术一起开创了新药设计和开发研究的新局面。

      这个领域的研究方向主要包括蛋白三维结构预测、蛋白质结构功能关系研究、蛋白相互作用、蛋白与DNA相互作用、蛋白质突变体的分子设计、全新蛋白质设计等。


1. 分子设计的意义 

      分子生物学最激动人心的进展之一是能够设计和生产新的蛋白质分子。重组DNA技术使人们能够定向改变蛋白质中的氨基酸序列,包括氨基酸的取代、插入或缺失,甚至包括蛋白质的融合等。

    蛋白质工程则是在深入了解蛋白质结构与功能关系的基础上,利用分子生物学方法和手段有目的地改造蛋白质,使之性能得到改善。作为蛋白质工程的组成部分,蛋白质分子设计在其中起着十分重要的作用。


  • 从预期的蛋白质功能出发→设计预期的蛋白质结构→推测应有的氨基酸序列→找到相对应的脱氧核苷酸(基因) 

     2. 分子设计的种类 

小改:少数残基的替换,突变或修饰

中改:分子拼接,肽段或结构域的替换

大改:从头设计,全新蛋白质的设计 

3.分子设计与蛋白质结构

     蛋白质分子内部的电荷分布、相互作用有其特定的结构特征,随意选择突变位点在蛋白质分子中改变氨基酸,不仅达不到预期目的,反而可能影响蛋白质分子的活性中心,使蛋白质的活性降低或丧失


 
 

4. 蛋白质分子设计的应用 

应用1:酶稳定性的改善酶的稳定性

     在蛋白质工程的实践中,一般可以通过在酶分子内增加二硫键或静电作用来提高酶分子的稳定性。 

例1:核糖核酸酶的稳定性的提高

(1)已知条件:核糖核酸酶三维结构已由晶体衍射方法测定。 

     分子内有两对二硫键:Tyr24与Asn84正对,二者的Ca之间的距离为6.0A,满足二硫键的特征(二硫键的Ca的平均距离:4.5- 6.8?),可能形成一个潜在的二硫键;二者附近没有干扰形成二硫键的基团;二者离催化活性中心较远,突变后不会影响活性。

(2)设计方案: 
将Tyr24与Asn84突变为Cys 
实验结果:突变体的稳定性大大提高 
 
 

 


  • 例2.葡萄糖异构酶(GI)
  • 在工业上应用广泛,为提高其热稳定性,朱国萍等人在确定第138位甘氨酸(Gly138)为目标氨基酸后,用双引物法对GI基因进行体外定点诱变,以脯氨酸(Pro138)替代Gly138,含突变体的重组质粒在大肠杆菌中表达,结果突变型GI比野生型的热半衰期长一倍;最适反应温度提高10~12℃;酶比活相同。
  •    据分析,Pro替代Gly138后,可能由于引入了一个吡咯环,该侧链刚好能够填充于Gly138附近的空洞,使蛋白质空间结构更具刚性,从而提高了酶的热稳定性。

应用2:融合蛋白质

  •    脑啡肽(Enk)N端5肽线形结构是与δ型受体结合的基本功能区域,干扰素(IFN)是一种广谱抗病毒抗肿瘤的细胞因子。黎孟枫等人化学合成了EnkN端5肽编码区,通过一连接5肽编码区与人α1型IFN基因连接,在大肠杆菌中表达了这一融合蛋白。以体外人结肠腺癌细胞和多形胶质瘤细胞为模型,采用3H-胸腺嘧啶核苷掺入法证明该融合蛋白抑制肿瘤细胞生长的活性显著高于单纯的IFN,通过Naloxone竞争阻断实验证明,抑制活性的增高确由Enk导向区介导。

     应用3:蛋白质活性的改变

  

  •    通常饭后30~60min,人血液中胰岛素的含量达到高峰,120~180min内恢复到基础水平。而目前临床上使用的胰岛素制剂注射后120min后才出现高峰且持续180~240min,与人生理状况不符。实验表明,胰岛素在高浓度(大于10-5mol/L)时以二聚体形式存在,低浓度时(小于10-9mol/L)时主要以单体形式存在。设计速效胰岛素原则就是避免胰岛素形成聚合体。
  •    类胰岛素生长因子-I(IGF-I)的结构和性质与胰岛素具有高度的同源性和三维结构的相似性,但IGF-I不形成二聚体。IGF-I的B结构域(与胰岛素B链相对应)中B28-B29氨基酸序列与胰岛素B链的B28-B29相比,发生颠倒。因此,将胰岛素B链改为B28Lys-B29Pro,获得单体速效胰岛素。该速效胰岛素已通过临床实验。

应用4:治癌酶的改造

  •   癌症的基因治疗分二个方面:药物作用于癌细胞,特异性地抑制或杀死癌细胞;药物保护正常细胞免受化学药物的侵害,可以提高化学治疗的剂量。
  •     疱症病毒(HSV)胸腺嘧啶激酶(TK)可以催化胸腺嘧啶和其他结构类似物如GANCICLOVIR和ACYCLOVIR无环鸟苷磷酸化。GANCICLOVIR和ACYCLOVIR 缺少 3’端羟基,就可以终止DNA的合成,从而杀死癌细胞。HSV-TK催化GANCICLOVIR和ACYCLOVIR的能力可以通过基因突变来提高。
  •   
  •    从大量的随机突变中筛选出一种,在酶活性部位附近有6个氨基酸被替换,催化能力分别提高43和20倍。O6-烷基-鸟嘌呤是DNA经烷基化剂(包括化疗用亚硝基药物)处理以后形成的主要诱变剂和细胞毒素,所以这些亚硝基药物的使用剂量受到限制。O6-烷基-鸟嘌呤-DNA烷基转移酶O6-Alkylguanine-DNAalkyltransferase(AGT)能够将鸟嘌呤O6上的烷基去除掉,起到保护作用。通过反向病毒转染,人类AGT在鼠骨髓细胞中表达并起到保护作用。通过突变处理,得到一些正突变AGT基因且活性都比野生型的高,经检查发现一个突变基因中的第139位脯氨酸被丙氨酸替代。

 


    应用5:嵌合抗体和人缘化抗体

  

  •    免疫球蛋白呈Y型,由二条重链和二条轻链通过二硫键相互连接而构成。每条链可分为可变区(N端)和恒定区(C端),抗原的吸附位点在可变区,细胞毒素或其他功能因子的吸附位点在恒定区。每个可变区中有三个部分在氨基酸序列上是高度变化,在三维结构上是处在β折叠端头的松散结构(CDR),是抗原的结合位点,其余部分为CDR的支持结构。不同种属的CDR结构是保守的,这样就可以通过蛋白质工程对抗体进行改造。
  •      鼠单克隆抗体被人免疫系统排斥,它潜在的治疗作用得不到利用。
  •    嵌合抗体就是用人抗体的恒定区替代鼠单克隆抗体的恒定区,这样它的免疫原性就显著下降。如用于治疗直肠结肠腺癌(COLORECTALADENOCARCINOMA)的单克隆抗体Mab17-1A。尽管嵌合抗体还存在着免疫原的问题,但仍有几种嵌合抗体通过了临床实验。
  •    所谓人缘化抗体就是将抗原吸附区域嫁接到人抗体上,这样抗体上的外源肽链降低到最小,免疫原性也就最小。但是,仅将CDR转接到人抗体上,其抗原吸附能力很小,必须带上几个框架氨基酸残基,才能保持原有的吸附力。这样就存在免疫原性与抗原吸附力之间的矛盾。通过逐个氨基酸替代或计算机模拟分析,可在保持原有吸附力的基础之上,尽可能地降低免疫原性。
  •    第一个临床上应用的用于治疗淋巴肉芽肿病和风湿性关节炎的人缘化抗体CAMPATH-1H,尽管疗效显著,但仍有半数以上的患者有免疫反应。而其他人缘化抗体如治疗脊髓性白血病的ANTI-CD33等,其免疫反应可以忽略不计

 


  •    上述各例是通过对关键氨基酸残基的置换与增删进行蛋白工程的一类方法。
  •    另一类是以某个典型的折叠进行“从头设计”的方法。1988年杜邦公司宣布,成功设计并合成了由四段反平行α—螺旋组成为73个氨基残基的成果。这显示,按人们预期要求,通过从头设计以折叠成新蛋白的目标已是可望又可及了。
  •    预测结构的模型法,在奠定分子生物学基础时起过重大作用。蛋白的一级结构,包含着关于高级结构的信息这一点已日益明确。结合模型法,通过分子工程来预测高级结构,已成为人们所瞩目的问题了。

   

  尽管蛋白质结构预测和分子设计的现状距离其最终目标还很遥远,方法本身也正处于发展之中,同时有很多的局限性。在现阶段,我们还不能指望它能预测任意一个蛋白质序列的结构,也不能要求它设计的蛋白质个个成功。但很多实例都已证明,以蛋白质结构预测为基础的分子设计还是很有用的。蛋白质结构预测和分子设计应用于蛋白质工程研究时,会大大减少设计突变体的盲目性。

 


设为首页 | 加入收藏 | 昂纲搜索

All Rights Reserved Powered by 文档下载网

Copyright © 2011
文档下载网内容来自网络,如有侵犯请和我们联系。tousu#anggang.com
返回顶部