Discovery Studio官方教程（Help-Tutorials）| 基于MODELER构建蛋白酶模型

目的：通过此教程，了解Discovery Studio中基于蛋白序列构建同源蛋白模型的操作方法及结果分析。

所需功能和模块：Discovery Studio Client，DS Sequence Analysis，DS MODELER，DS Protein Families，DS Protein Health。

所需数据文件：P41131.fasta。

(资料图)

所需时间：1小时

介绍

蛋白质结构的解析对其功能的理解至关重要。然而，由于技术手段的限制，利用实验方法（主要为X-ray，NMR）解析蛋白质结构投入大、周期长、风险大。对于某些膜蛋白，只利用现有技术条件，其结构甚至无法解析。另一方面，随着分子生物学技术的成熟及高通量测序技术的发展，越来越多的基因序列可以被轻松找到。这造成了现代蛋白质科学中一个奇怪的现象：蛋白质序列数据的累积量及积累速度远远超过蛋白质结构的解析。这种序列与结构间不平衡的现象极大地限制了我们对蛋白质功能及其相关作用机理的理解。因此，我们需要一种能够简单、快速且相对准确的技术来预测蛋白质的空间结构。

同源建模技术可以很好的解决上面的问题。该方法利用信息技术的手段，可以直接从蛋白的一级结构（氨基酸序列）预测蛋白质的高级结构（主要为三级结构）。根据最新一届国际建模大赛（CASP）的分类，目前主要的蛋白质建模方法包括两种：基于模板的建模（Template-based Modeling）和自由建模（Free Modeling）。前者又包括两种方法：同源建模法（Homology Modeling）和“穿线法”（Threading）。后者主要以从头计算法（ab initio）为主。所有的建模方法中，以同源建模法(Homology Modeling)使用最为广泛，预测结果的准确性最为可靠。

同源建模的理论基础为蛋白质三级结构的保守性远远超过一级序列的保守性。因此，人们可以通过使用一个或多个已知结构的蛋白（模板蛋白，template）来构建未知结构蛋白（目标蛋白，target）的空间结构。

Discovery Studio为用户提供了一整套利用Homology Modeling方法自动预测蛋白质空间结构的工具。用户只需要提供蛋白质的氨基酸序列就可以轻松完成同源模型的构建及模型可信度评估的工作。DS的Homology Modeling主要基于MODELER程序。目前MODELER已成为使用最为广泛，预测最为准确的同源建模工具之一。其主要的建模步骤包括：

1.使用序列相似性搜索工具BLAST或PSI-BLAST搜寻目标序列的模板

2.使用结构比对方法将模板进行比对、叠合

3.使用序列比对方法将目标序列与模板结构的序列进行比对

4.使用MODELLER产生目标序列的模型

5.模型的评估

在识别目标序列的模板以及比对目标序列和模板结构的序列时，具体采用何种策略依赖于目标序列和模板序列间的同源性高低：

当序列同源性很高（一般大于60%）时，BLAST可以轻易识别出正确的模板，并且序列间的比对结果也很好。

当序列同源性不是很高，但仍在模糊区之上（一般介于25%和60%之间）时，BLAST仍能够有效地识别出正确的模板，但是，简单的序列比对可能不能为同源建模产生最优的比对结果。在该情况下，序列比对结果可以通过利用无冗余序列库（non-redundant sequence database）中的同源序列创建sequence profile来改善。该方法是最为常见的流程，该教程也会给出相应的例子来介绍该方法。

当序列同源性非常低（低于25%）时，采用迭代搜索方法（PSI-BLAST）来搜寻模板，并且利用sequence profile来比对序列。

本教程中，以一个胞外淀粉酶的同源模建过程为例子，展示如何在DS中采用上面介绍的第二种方法来为该淀粉酶自动构建同源模型，并对所构建的模型进行评估，帮助大家获得Homology Modeling最直观的结果。

本教程包括以下步骤：

模板识别

目标序列和模板序列的比对

3D模型的构建（MODELER）

3D结构可靠性的评估

模板的识别

构建同源模型的第一步是基于序列相似性从已知的蛋白结构中识别出一个或多个模板蛋白。通常采用序列相似性搜索程序BLAST来完成该目的。进行BLAST搜索时，数据库可以使用Protein Data Bank（PDB）数据库也可以用PDB_nr95（PDB非冗余结构数据库）。为缩短搜索时间，通常使用PDB_nr95数据库来寻找模板。

1. 载入序列

在文件浏览器（Files Explorer）中，展开Samples | Tutorials | Protein Modeling文件夹，双击打开P41131.fasta序列文件。

序列P41131在序列窗口中显示。（图1）

图1 P41131序列窗口

2. 搜寻模板

在工具浏览器（Tools Explorer）中，展开 Macromolecules | Search Sequences by Similarity，点击 BLAST Search (DS Server)，打开BLAST Search对话框。

在对话框中，点击Input Sequence 参数右边的栅格，下拉列表中选择P41131:P41131。

Input Sequence 中的文件名为sequence window的名字（P41131）与该窗口中的序列名称（P41131）的名字组合。

点击Input Database参数右边的栅格，下拉列表中选择PDB_nr95。（图2）

该步骤指定了BLAST搜索的数据库为PDB_nr95数据库，即序列同源性在95%时无冗余的信息。

注：PDB_nr95序列数据库已经安装在DS server上。如果需要用BLAST搜索其它数据库，用户需要另外安装相应的数据库。

图2 “BLAST Search”参数设置

点击Run运行作业，等待作业完成。

该作业大概需要一分钟的时间（奔腾4，2.8GHz的CPU，2GB的内存）。

待作业完成后，BLAST搜索得到的序列会自动显示在BLAST Window中。

同时，弹出一个消息框“P41131 found 62 BLAST hits”。

注：如果改动默认参数或使用不同的（或升级版）的PDB_nr95数据库，BLAST结果可能与本教程的结果不一致。

点击OK以关闭消息框。

在P41131 – Blast 窗口, 点击该窗口下的Table View 标签。

Table View显示了命中的蛋白序列。每行表示一条命中的氨基酸序列。在DS中，灰色的cells是不能被编辑的。（图4）

图4 BLAST窗口的表格视图

注：命中的序列按照E值（序列无缝比对存在偶然性的可能性大小，表征了序列比对的可行度）进行排序。E值最低的序列，结果最可靠，排在第一行。

点击 P41131 – Blast 窗口下的Map View 标签。

Map View将命中结果都显示在一张图中，每条线表示一条序列。每根横条根据bit score打分不同而配以不同的颜色（分数超过400为红色，最佳的命中结果）。本例中的目标序列P41131显示在窗口的最上方，为一条长度为443个氨基酸的直线。（图5）

图5 P41131 BLAST 窗口

用户可以将鼠标放置在某一个命中序列上，如下信息将会显示（如图5所示）：

序列数据库的描述

序列的编号

所属有机体的种类

目标序列中的起始氨基酸位置

数据库中命中序列的起始氨基酸位置

命中序列的长度

命中序列的分数

与目标序列的同源性

滑动鼠标的滚轮可以横向放大（缩小）Map View中的结果

这时用户可以看到窗口顶端target的相应氨基酸。可能需要放大几次才能看见具体的氨基酸类型。（图6）

图6 P41131 BLAST 窗口

注：Map View中命中序列的顺序并没有改变，同Table View中的一致。

3. 模板的选取

本教程要构建蛋白序列为P41131的3D模型。为了达到这一目的，我们需要挑选一个或多个合适的同源模板（templates）。一个理想的template需要涵盖整个target的长度，具有较高的序列等同性（Sequence identity），并且E值要够小（

一般而言，若有多条模板与target都具有相似的同源性，但模板之间相似性并不非常高，那么通常使用多模板来构建同源模型。这些模板在核心区域一般都具有非常相似的结构，而在一些loop区的长度和构象上可能有所不同。目标序列可能与其中某个模板在某loop区叠合的非常好，而与另一个模板在另一loop区匹配的比较好。因此，使用多模板可使建模过程中模型的每个部分都采用最合适的模板。

点击 P41131 – Blast 窗口。

点击 Map View标签, 按住SHIFT键同时点击前五个命中序列1G94_A, 4GQR_A, 1HX0_A, 1JAE_A, 3VM5_A以将其全部选中。

点击右键，选择Load Structure and Alignment。

这将在DS中打开两个新的窗口。一个为新的名为1G94A的分子窗口（图7），包含了上述五个模板结构的A链以及结构中的水分子和配体分子。另一个为名为P41131（1）的序列比对窗口（图8），包含了目标序列P41131和五个模板结构的序列对比图。

图7 1G94 分子窗口

图8 P41131(1) 序列比对窗口

点击P41131（1）窗口,在Sequence Window中，在菜单栏中点击选择Sequence | Secondary structure | Visibility，选PDB和Kabsch-Sander选项，点击OK。

在序列窗口中，五个模板序列的下方会出现根据PDB和Kabsch-Sander两种方法进行标识的相应序列的二级结构图。红色横条代表α螺旋，蓝色箭头代表β折叠。

检查目标序列与五个模板序列间的比对结果。我们发现C端中约有50个氨基酸没有对比上。这样的比对结果并不适合于同源建模，需要对序列重新进行比对。下一步就展示如何将目标序列比对至模板序列上。

图9 P41131(1) 序列比对窗口

将目标序列与模板序列进行重新比对

以下几种方法都可以用于将目标序列比对至模板序列：

通过多序列比对（aligning multiple sequences）将目标序列直接比对至模板序列

通过结构比对先将模板结构叠合，再通过sequence同sequence profile的比对将目标序列比对至比对好的模板序列。

通过结构比对先将模板结构叠合，再为目标序列生成一个sequence profile，最后通过两个sequence profile间的比对将目标序列比对至比对好的模板序列。

接下来，我们将用Align Sequence to Templates工具将目标序列比对至所选的模板序列。你可以选择上述任一方法。在本例中，我们采用第二种方法，原因如下：

序列保守性和结构保守性通常会有细微的不同，这将会导致不同的结果。因此，对于同源模建，最佳方法是在模板结构同目标序列比对之前先基于结构的相似性将模板结构进行比对。

在工具浏览器（Tools Explorer）中，展开Macromolecules | Create Homology Models，点击Align Sequence to Templates，打开Align Sequence to Templates对话框。

点击Input Model Sequence右边的栅格，在下拉列表中选取P41131-(1):P41131，点击Input Template Structures右边的栅格，选择1G94A:All 确保5个模板结构都已选中。

Create Sequence Profile to True

其它参数都选择默认设置。（图10）

点击Run运行作业，等待作业完成。

该作业大概需要五分钟的时间（奔腾4，2.8GHz的CPU，2GB的存储器）。

图10 “Align Sequence to Templates”参数设置

待作业完成后，

点击Report DS自动打开两个新的窗口，一个是名为P41141_templates的序列窗口，包含了目标序列同模板序列的比对结果（图11），另一个是名为1G94A(1)的分子窗口，包含了五个叠合的模板结构（图12）。在report界面中，Summary栏里不仅显示了目标序列和模板序列之间的序列一致性（21.1%）和相似性（32.0%），还通过一张表格显示了五个模板结构两两主链之间的RMSD值及叠合的氨基酸残基数。

图11 P41131_templates 序列比对窗口

在上面的窗口中我们发现现在已经有更多的氨基酸被涂蓝，表示这些区域具有很强的序列一致性和相似性。

图12 Superimposed 分子窗口

在上面的窗口中我们看到现在五个模板结构已经叠合在了一起。

使用MODELER构建目标序列的3D模型

在本小节中，我们将使用上小节所产生的比对结果以及四个模板结构来构建目标序列P41131的3D模型，在此基础上我们还可以将该模型同模板结构进行比较以及评估MODELER程序所产生的模型打分。

1. 构建模型

点击名为1G94A(1)的分子窗口以将该窗口激活。

在视图窗口（Graphics View）中，点击鼠标右键，选取Show All。

在工具浏览器（Tools Explorer）中，展开Macromolecules | Create Homology Models，点击Build Homology Models，打开Build Homology Models对话框。

点击Input Sequence Alignment右边的栅格，下拉列表中选取P41131_templates:All。

确保Input Templates Structures一栏中，1G94A，4GQRA，1HXOA，1JAEA，3VM5A这五个模板蛋白都被选中。

点击Input Model Sequence右边的栅格，下拉列表中选取P41131。

将Number of Models设为2。

点击Optimization Level右边的栅格，下拉列表中选取Low。（图13）

注：将Optimization Level由默认值改为Low，可以加快计算速度，但产生的模型的精度会下降。

图13 “Build Homology Models”参数设置

点击Run运行作业，等待作业完成。

该作业大概需要八到十分钟的时间（奔腾42.8GHz的CPU，2GB的存储器）。待作业完成后，

DS自动打开两个新的窗口，一个是名为P41141_templates(1)的序列窗口，包含了两个模型序列同模板序列的比对结果（图14），另一个是名为P41131的分子窗口，包含了五个叠合的模板结构和两个模型结构（图15）。同时弹出一个消息框，显示了产生模型的个数及最佳模型相应的最低PDF总能量，点击该窗口中的Report。

图14 P41131_templates(1) 序列比对窗口

图15 P41131 分子窗口

2. 根据PDF值或者DOPE值挑选最优模型

在打开的Report窗口（图16）中，Summary一栏综述了所构建模型的打分。模型的排名依据是PDF Total Energy。建模过程中，DS MODELER首先会提取模板（template）的几何特性，然后使用PDF（probability density function）函数来定义蛋白结构中诸如键长、键角、二面角等几何特性。接着它会对PDF函数施加一定的约束条件，并以此来构建target的3D结构。所以PDF的函数值可以直接反应所构建模型的好坏。一般，模型的PDF Total Energy越低，表明该模型在同源约束条件下优化的越好；模型同限定的同源约束条件偏差越小，该模型的可信度越大。然而，如果构建的模型其PDF Total Energy相似，则可以利用基于原子统计势能的DOPE score作为衡量模型质量的依据。DOPE是一个基于原子统计势能的程序，主要用于模型评估。它的分数可以认为是衡量同一分子不同构象可信度的标准，能够帮助选择预测结构的最优模型。分数越低，模型质量越可靠。

图16 Report 窗口

注意：DOPE score挑选的最优模型与PDF Total Energy挑选的最优模型不一致时，可以使用其他的模型评估软件进行进一步的评估分析以选取较合理的初始模型。当没有其他模型评估软件可以使用时，也可以粗略的选取PDF Total Energy最低的模型作为最合理的初始模型。

本教程中选用PDF Total Energy最低的初始模型P41131.M0002作为最优模型。

点击P41131分子窗口以将该窗口激活。

在系统视图（Hierarchy View）中，展开P41131.M0002 | Modeler Groups (如下图)。

改组下有两组数据，分别是Identical和Non-Identical。前者包含了同模板序列类型一致的氨基酸残基，后者包含了同模板序列不一致的氨基酸残基。如果氨基酸残基没有同任何模板残基比对上，则该残基单独分为一组，命名为Insertion，该组包含了没有同模板残基比对上的保守残基。

模型评估

模型构建完成后，一般需要对其进行评估。DS为用户提供了多种模型评估方式。主要包括：Ramachandran plot 和Profile-3D。

在使用下列模型评估程序时，关闭除P41131.M0002窗口外所有的窗口。如提示时候保存时，选择否。

1. 使用Ramanchandran Plot评估模型

Ramachandran plot用于阐述蛋白质或肽立体结构中肽键内α碳原子和羰基碳原子间的键的旋转度（psi）对α碳原子和氮原子间的键的旋转度（phi），主要用来指明蛋白质或肽类中氨基酸的允许和不允许的构象（如下图）。

通过对已知晶体结构的统计分析，人们可确定氨基酸在Ramachandran plot中经常出现的区域。使用该图，用户可以确定结构中每个氨基酸的构象是否正确。

从主菜单中，选取Chart | Ramachandran Plot，显示P41131.M0002模型的拉氏图。（图17）

图17 拉氏图

蓝色区域为“最适区”，该区域含有的氨基酸个数越多，结构越可信；紫色区域为“允许区”；其它区域的点（红色点）为psi-phi构象不合理的氨基酸，需要优化。

2. 使用Profile-3D评估模型

Profile-3D是UCLA的David Eisenberg教授开发的一种基于“穿线”（threading）法的模型评估程序。该方法采用3D-1D的打分函数来检测所构建模型与自身氨基酸序列的匹配度关系。分数越高，说明同源模型的可信度越大。

在工具浏览器（Tools Explorer）中，展开Macromolecules | Create Homology Models，点击Verify Protein（Profile-3D）打开Verify Protein (Profile-3D)对话框。

点击Input Protein Molecules右边的栅格，选择 P41131:Visible。（图18）

点击Run运行作业，等待作业完成。

图18 “Verify Protein (Profile-3D)”参数设置

该作业大概需要一分多钟的时间（奔腾4，2.8GHz的CPU，2GB的存储器）。

待作业完成后，自动弹出一个显示了蛋白打分的消息框。（图19）

图19 消息框

点击OK，关闭该消息盒子。

点击P41131分子窗口，使得该窗口处于激活状态。

分子窗口中，Verify Protein的结果打分会自动更新至表格浏览器（Data Table）中。

在Data Table View中, 点击 Molecule标签，滚动table至Verify Expected High Score, Verify Expected Low Score，以及Verify Score 栏处。

如果模型的Verify Score高于Verify Expected High Score，则模型的质量较高。Verify Score越接近Verify Expected High Score，模型的质量越好。

点击AminoAcid标签，滚动至table的尾列Verify Score。

点击 Verify Score 一栏的表头以选取整列。

从主菜单中，选取Chart | Line Plot。

这将打开一个新的图表，该图表显示了序列中每个氨基酸的打分。（图20）

图20 Profile-3D图

下面我们来查看一下低分区的氨基酸。

将Line Plot窗口拖至分子窗口和序列窗口的并列位置，一同显示。

点击选中低峰周围区域，以选择Line Plot中对应的打分较低的氨基酸。

Profeile-3D图中选中的低分点（黄色）对应的氨基酸将在分子窗口和序列窗口高亮显示出来（黄色），以方便查看低分区域。

图20-1 Profile-3D图