生命经纬知识库 >>所属分类 >> 生物信息学技术   

结构数据库

标签: PDB MMDB 结构数据库

顶[0] 发表评论(20) 编辑词条

首先做一个关于如何记录生物高聚物的三维数据的思想实验。考虑一下如何在纸上记录如肌球素这类蛋白质的三维球棒模型的所有细节和尺度关系。一条开始的途径是从由三维模型主干描绘出的氨基酸序列入手。从N’端开始,我们通过将每个残基的化学结构与20种普通氨基酸化学结构比较,以识别每个氨基酸侧链。
一旦序列被写出来,我们将绘制生物高聚物的二维草图,草图中包括所有的原子、基本符号、化学键,可能会占用几页纸。亚化血红素配合基的绘制即为一例。将它的化学结构画在纸上后,我们可以通过量测模型中每个原子在设定的直角坐标系中的距离记录三维数据。同时也提供了球�棒结构中每个原子“球”的x,y,z坐标距离数据。
下一步是提出一个系统的分门别类的记录方案以保存与识别有关的每个原子的(x,y,z)坐标信息。最简单的方法是在生物高聚物的二维草图上,每个原子的右侧,标出(x,y,z)三元坐标值。
以上思想实验有助于我们对三维结构数据库应包含哪些内容形成初步的概念。从人类可读性的角度而言,这样的结构记录形式是足够的,但计算机却不一定能够理解它。计算机需要原子、化学键、坐标、残基、分子间结合关系的清晰明显的编码。
• 坐标、序列、化学图像
典型的三维结构记录中与使用的文件格式无关的最明显的数据是坐标数据,它表征了分子中原子的空间位置,用沿着每个坐标轴到某特定原点的距离(x,y,z)表示。每个原子的坐标数据归属于结构记录中的标注信息列表:空间中的每一点代表了记录中的元素、残基和分子。对于生物多聚体,这标注信息来源于序列。每个序列固含的是重要的化学数据。我们能够直接从序列中推断出完整的包含所有原子和化学键的生物高聚物分子化学联接,能够恰如早先所描述的仅从序列信息出发描绘出草图。我们把这分子“草图”称作三维结构的化学图像。序列是生物高聚物分子完整化学图谱的固有表示。
当描绘从属原子与化学键的略图以表示序列时,我们可以借鉴教科书中描绘的每个残基的化学结构,以免露掉一两个甲基。同样地,计算机可利用“残基词典”在内存中建立结构的类似于略图的化学图像表示,“残基词典”中则包括一组对应于每个普通氨基酸或核酸模块的原子类型与化学键信息表。
• 原子、化学键和完整性
分子图像可视化软件完成了精细的“点联接”过程,而绘制出如我们在生物分子结构教科书中所见到的完美的蛋白质结构图像。显然,原子间联接依靠化学键。在目前的应用中,三维分子结构数据库记录使用了两种不同的键数据信息优化存储方法。
记录原子与化学键信息的经典途径是依靠“化学准则”。这些准则是显而易见的物理化学准则,比如稳定的碳、碳键的平均长度大约1.5埃。应用这些来源于化学键的规则,意味着空间中两个1.5埃距离的碳原子总形成单键。有了这些化学准则,我们可完全简化化学键信息存储。倘若结构本身未违背任何化学规则,则能够被完整记录而不带任何附加键信息。
最初的三维生物分子结构文件记录格式,Brookhaven蛋白质数据库(Bernstein等,1977)的PDB格式皆以化学准则方法为基础。一般而言,这些记录没有生物高聚物的完整键信息。无需“残基词典”,而仅用可能成键原子对的键长与键类型匹配表即可解译用“化学准则方法”编码的数据。
PDB数据文件读入软件包必须能基于这类规则重构化学键。对于程序员,如何解释PDB文件中的键信息尚未形成明确统一的规则,而导致了各类软件绘制化学键连接时的不一致,尤其应用了不同的算法和距离容差,这类情况更为严重。虽然PDB文件组织方案在记录数据存储方面的要求最低,但比较连键信息和化学图像描述已在记录中详细说明的情况,则对存储信息进行恰当解释所需算法也相应更复杂。这将迫使程序开发者做更多的工作。基于事件的编程中,考虑连键规则中的种种例外情况,更需要复杂的逻辑说明。
第二种方法在由PDB衍生而来的分子建模数据库(MMDB)的数据库记录中得到应用。MMDB运用标准的“残基词典”,其中记录了氨基酸、核酸残基这样以聚合体形式存在,具有末端多样性的分子中所有原子、化学键信息。在结构科学家解决分子结构而使用的专用软件中,这类数据词典是很普遍的。读入MMDB数据的软件能利用词典所提供的键信息将原子连为一体,而无须力图满足化学准则的要求。最终,用软件获得准确的三维坐标数据。这种方法使软件开发简单化,因为连键规则中的例外情况在数据库文件中已被记录,而无须附加逻辑控制代码即可将之读入。
一些不熟悉结构数据的科学家常常希望在公共数据库中的结构信息表达类同于教科书。他们会对结构中某部分的数据丢失感到惊讶。相应于某一特定分子的三维数据库记录的适用性并不意味着完整性。结构的完整性定义如下:化学图像中任一原子至少有一维坐标值确定。
在结构数据库中,完整的记录是不多见的。大多数由X射线衍射获得的结构缺少氢原子坐标,因为氢原子的空间位置不能用实验手段决定。但一些建模软件可用于估计氢原子位置,并用其重建结构记录。在结构数据库中识别由模型构造的分子是容易的。它们常常有过于复杂的坐标数据和所有用实验手段无法确认的氢原子可能表达形式。
目录

[显示全部]

PDB:Brookhaven国家实验室蛋白质数据库编辑本段回目录

计算机在生物学中的运用起源于生物物理方法的应用,如X射线结晶衍射。于是最初的“生物信息学”数据库被用于存储复杂的三维数据不足为怪。现代的蛋白质数据库以收集的蛋白质三维结构公共数据为核心,附带核酸、糖类三维结构和各类由X射线衍射结晶学家、核磁共振谱分析学家通过实验测定的合成物。本部分集中详细介绍由蛋白质数据库PDB提供的生物信息学数据库服务。
• PDB数据库服务
Brookhaven国家实验室蛋白质数据库的WWW站点为三维结构数据的提交、检索提供了大量的服务。
• 提交结构数据
对于那些希望向PDB提交三维结构信息的人们而言,可以经由AutoDep服务机构按照一定的基于网页的程序步骤实现其愿望。因为提交程序是随编写时间而不断变化的,所以在PDB的网络站点上应该能找到最新信息。核酸结构数据保存在核酸数据库NDB中。Biotech Validation Suite站点是镜像站点,提供在提交结构数据前屏蔽立体化学构象与几何学构象不一致的PDB文件的服务。
PDB明文规定拒收依靠计算机三维建模而非实验手段获得的结构数据。而关于已被宣布为例外结构的最新细节数据的提交需与PDB商议。容纳结构模型的单独的数据库是现成的,可以在本书的网络站点上查询有关信息。
• PDB的ID编码
PDB中登记入册的结构记录拥有一个唯一的包含字母与数字的被称为PDB-ID或PDB编码的四位字符串,可由数字0~9和大写字母A~Z组合而成。因此可能的组合方案超过了130万种,没有按某特定顺序分配PDB-ID。但蛋白质数据库PDB的索引编撰者尽量设计好的记忆方法,使结构名称易于记忆,如早先如图3.1所示的胰岛素记录3INS。
• 数据库查询、PDB文件检索与链接
PDB和它的一些镜像站点提供由每个PDB记录的所有文本信息索引的文本搜索引擎,可按一些专门的查询项目(如提交数据、作者姓名、结构表达)检索。PDB最新的搜索引擎,3DB Atlas,可用于PDB记录检索,如图3.2示。3DB Atlas也是链接有PDB结构数据第三方注解的基本数据库,支持大量的到基于因特网三维结构服务的其它网点的链接。其中包括了一些二维、三维浏览器,如Kinemage(Richardson,Richardson,1992)、Resmol(Sayle,Milner�White,1995)。图3.2b显示了蛋白质1BNR的到3DB记录Barnase的一些链接。创建的图像有助于调整三维结构方向,以获得观察结合位点这类确定特征的最好视角。3DB Atlas也与专门设计的数据库相连,这些数据库由对诸如结构进化(FSSP:Holm,Sandar,1993)、结构相似性(DALI:Holm,Sander,1996)和蛋白质运动(Gerstein等,1994)等相关课题有兴趣的研究者维护。3DB可相应链接NCBI的MMDB服务(Hogue等,1996),提供了一条到Entrez(Schuler等,1996)系统(包括序列、分类、PubMed/MEDICINE服务和VAST结构相似性比较)的通路。
• 源自PDB结构记录的序列
PDB文件编码格式的序列是众人皆知的。因为不能确保结构的完整,PDB记录包括两个序列信息备份:隐性序列和显性序列。两者都被用于重构生物高聚体的化学图像。
显性序列在PDB文件中以关键词SEQRES打头逐行存储。不同于其它序列数据库,PDB记录用三字母氨基酸编码,任意选择三个字母作为名称的非标准氨基酸在许多PDB记录序列条目中可被找到。在PDB中,一些双螺旋核酸序列条目被指定依照在条目中按从3’到5’端的顺序排列的一条链在上,从5’到3’端排列的互补链在下的方式排列。虽然这些以双螺旋形式表达的序列对人类而言是容易理解的,但直接由计算机阅读此类从3’到5’端排列的显性序列是荒堂的。
因为三维结构可能对应有多个生物高聚物链,所以使用者必须借助PDB链识别标记方可确定需要的序列。PDB文件SEQRES入口用一个大写字母或空格作为链识别标记,以识别条目中的每个单独的生物高聚体链。如图3.1所示的3INS结构,在记录中便存在两种胰岛素分子。3INS序列包括A、B、C、D四个氨基酸序列。由胰岛素的生物化学背景知识知道A、B蛋白质链源自同一基因,在翻译修饰的过程中,胰岛素序列被切为如PDB记录所示的两段。这个信息没有在三维结构数据库中被记录。单字母链命名方案与所枚举的大齐分子量聚合物,如衣壳病毒,的三维结构是有困难的,因为单字母链识别器的可识别总数是有限的。
PDB记录中的隐性序列蕴涵在由PDB文件中的ATOM记录及相应(X,Y,Z)位置坐标构成的化学立体结构中。在解决诸如核酸序列后向编码或非标准氨基酸识别等利用显性序列无法明确解决的问题时,隐性序列是十分有用的。实践中,许多PDB文件浏览器,如Rasmol,仅用隐性序列重构PDB记录蛋白质的化学图象,而忽略由SEQRES引导的显性序列信息。若要求这类软件打印某不完整的分子序列,其打印结果序列在现实中将并不存在。所以说隐性序列尚不足于重构完整的化学图像。
举例说明,假设在PDB文件SEQRES条目中存在一个序列ELVISISALINES,但缺少子序列ISA的(X,Y,Z)位置坐标信息,阅读隐性序列的软件会错误地构建ELVISLINES的化学图象。用于测试软件是否仅依赖隐性序列去分析结构信息的样本测试结构3TS1(Brick等,1989)在Java三维结构浏览器Webmol中的图像如图3.3所示。
• PDB序列验证
为合理地检验来自PDB记录的序列,必须先获得ATOM记录中的隐性序列。这一步并不繁琐。若结构因间断而不完整,则给定链会拥有一套隐性序列框架。每个框架与SEQRES条目中相应链的显性序列相对应。用这种方式可产生包括可能丢失坐标信息的那部分生物序列在内的完整化学图象。而这种验证需以MMDB、mmCIF数据库的建立为物质基础。
由PDB结构记录衍生出来的单字母编码类型蛋白质、核酸序列检验样本最好来自NCBI Entrez体系的MMDB。如对胰岛素这样的序列记录系统地建立了数据库附录,利用附录:pdb|3INS|A, pdb|3INS| B,pdb|3INS|C, pdb|3INS|D,可以由Entrez中被分割的蛋白质序列恢复完整的序列。PDB文件中包含Swiss-Port蛋白质数据库DBXREF序列记录的参考说明。以下两点需要注意:其一,因为检验程序在链接过程中未被实现,所以Swiss-Port中的序列不需与结构一、一对应;其二,许多PDB文件分类简单而含糊不清,这一点在一些源自不同种类的分子复合物的三维结构中有所表现。

MMDB:NCBI的分子建模数据库编辑本段回目录

NCBI的分子模型数据库MMDD(Hogue等,1996)是NCBI Entrez体系(Schuler等,1996)的一部分。其中囊括了由晶体衍射和核磁共振实验研究得到的所有PDB(Bernstein等,1977)生物分子三维结构。MMDB是ASN.1记录格式,而非PDB记录格式的数据库。MMDB结构与原始的PDB结构相比,增加了一些附加信息,包括经程序验证的显性化学图像信息,一致的二级结构衍生定义,与MEDLINE相匹配的引用,基于源自生物实体的蛋白质或核酸链进行分类的分子匹配。
• MMDB数据库服务
NCBI的MMDB提供了诸如被检验序列的BLAST检索,结构-序列匹配,文件格式转换,编程界面显示等服务。
• 结构记录文本查询
  正如其它三维结构服务那样,MMDB数据库可利用WWW Entrez及Network Entrez(Schuler等,1996)进行文本查询。MMDB亦称为Entrez Structure组分。MMDB检索域包含PDB、MMDB的ID编码,源自PDB注释记录的自由文本,作者名及其它著书目录检索域。
• MMDB结构摘要
  MMDB的网络界面提供了每个MMDB结构记录的结构摘要网页,如图3.2b示。MMDB结构摘要网页为结构中的每条链提供了FASTA格式的序列,并提供了到MEDLINE、3DB Atlas、Brookhaven PDB网页及站点的链接,结构中每条氨基酸链和核酸链邻近序列的链接和到每条链中各域间VAST结构比较服务的链接。
• BLAST:新序列相似性
  当研究者希望找到新序列的相似结构,NCBI的BLAST(Altschul等,1990)在BLAST检索数据库“pdb”中提供了MMDB所有验证序列的拷贝。BLAST网页界面,可以FASTA格式将序列粘贴到序列条目“箱”中,并选择相应“pdb”序列数据库,在目前公共结构数据库的所有验证序列中进行检索。
• Entrez Neighboring:已知序列相似性
Entrez中的序列已经完成了BLAST操作。依靠Entrez的“neighboring”操作,可找到与给定蛋白质序列相似的序列结构。
下面说明如何利用Entrez“ Neighboring” 操作以决定与已知序列相似的序列三维结构是否存在。首先找到WWW Entrez的“Search the NCBI protein database”选项,再执行对感兴趣序列进行检索的查询请求。如查询oncomodulin,若在查询中检索记录摘要,可在下拉式菜单上选择“Structure links”项,按Display键可显示出两个MMDB记录:IRRO(Ahmed等,1990)和IOMD。
通过执行蛋白质“neighboring”邻接操作,然后从三维结构邻近的蛋白质族列表中找出链接对象并链接,可完成细微相似性的扩展查询。仍以查询oncomodulin为例,每个蛋白质记录将显示有几百个“邻近”蛋白质。首先选择“邻近”蛋白质列表,再执行在包含所有“邻近”蛋白质的网页顶部的[Display][Structure list]命令,结果将给出很长的包括三维结构数据库中所有其它同源钙指蛋白质(如parvalbumin)在内的查询清单。
• VAST:基于三维形状的结构相似性
  VAST(矢量分析检索工具,Gibral等,1996)用于检索三维结构的相似性。它舍弃了序列信息,而单纯依靠由二级结构衍生的三维矢量指标进行检索。VAST具有检索结构相似而序列不相似的生物高聚体的能力。如同BLAST一样,VAST可以N*N方式操作数据库中的所有条目,并存储结果,以利于Entrez界面快速检索。利用VAST算法,对10,000多个局部结构一一匹配比较,并记录了结构之间的匹配与重叠关系如图3.2c示。VAST算法是基于统计意义下的相似性比较算法,故而检验蛋白质结构比较中偶然发生的局部结构的诸多相似性是没有必要的。例如, sheets中有许多小片段具有显而易见的相似性,用VAST检验其相似性,结论是具有细微同源性,而这是用普通序列对比算法无法检验的。正基于此,这类相似性将提供一个关于研究蛋白质家族结构、功能、进化的更宽广的视角。
  序列相似性检验程序提供了两序列的匹配信息,结构相似性检验程序提供了三维结构的重叠信息。利用一套三维旋转、变换矩阵操作可将结构的相似部分集中在一起。一种方便的序列匹配方法是通过蛋白质骨架中 碳的空间堆叠寻找三维重叠。除了相似结构的列表,由VAST获得的邻近结构检索结果还包括详细的残基间匹配和关于结构重叠的三维转换阵。在实践中,选择具高度相似性的局部结构,并与DALI(Holm和Sander,1996)比较,可知通过VAST获得的匹配是保守的。利用VAST重叠区可以容易地识别由于蛋白质进化而结构改变的区域,因而DALI在为构建结构模型而进行的序列、结构比较中更有用。在研究蛋白质结构关系时,尤其与记录蛋白质家族信息的SCOP(Murzin等,1995)数据库联合使用,VAST和DALI这两个工具都是十分优秀的。

结构文件格式编辑本段回目录

• PDB
 PDB文件格式是纵向排列的,类同早先FORTRAN程序员所用的打洞卡,PDB网站上保持了这种文件格式风格。由结构科学家开发的结构软件大多由FORTRAN语言编写。而生物信息学的其它方面则采用了另外的语言,如C语言;PDB文件往往前后矛盾,如本章所述的那样,表面上看起来语法容易分析,但实际上存在着不少漏洞。对初学者而言,最显著的问题是关于生物高聚物的键信息是不存在的,而迫使利用化学规则编程,以识别由PDB命名方式命名的各原子及提高对例外情况进行操作的鲁棒性。PDB句法分析软件常常需要同义代名词列表和例外情况列表以正确解释信息。但本章内容不着重于阐述如何构建PDB语法。
  两种新的以化学背景为基础的文件格式:mmCIF(大分子化学交换格式)和MMDB(分子建模数据库)产生了。两种文件格式都力图使PDB信息现代化,两者皆以机器文法一致的数据描述语言开头。数据描述语言采用了在编程语言中可以任何名称、任何值出现的“标记值”对。两者的格式说明皆支持机器阅读,相应软件利用这个格式说明文件检验数据流。两种软件文件格式可通过基于匹配的利用带有显性SEQRES化学图像和文件中记载的验证信息重构固有ATOM及HETATM化学图像的策略由PDB文件衍生出来。最终使得这两种格式在综合生物分子序列数据库方面优于PDB格式数据库文件,它们在未来软件中的应用前景是令人鼓舞的。
• mmCIF
产生mmCIF(Bourne等,1995)文件格式的原本目的是作为小分子晶体学家熟悉的CIF(化学交换格式:Hall等,1991,基于STAR语法子集合)的扩展。用于分析验证格式说明的CIF软件并非与mmCIF前向兼容,因为它们对STAR语法均有不同的补充。MmCIF记录的基本数据组织形式是一组关系表。 MmCIF把格式说明称做“mmCIF词典”,保存在Rutgers大学的核酸数据库WWW站点上。“mmCIF词典”是包含保持PDB文件中存储信息及衍生自基本坐标数据的其它数据信息(如键角信息)所需要的一系列说明。MmCIF数据说明界面对所有的数据都是一致的,可支持基于WWW 的相关数据库网络查询格式NDB Protein Finder。
靠“mmCIF词典”检验数据流需要相当大的mmCIF数据I/O开支。所以mmCIF可能被指定为高级存档类查询格式。用FORTRAN和C编写的将mmCIF表转换成关系表并读入内存的软件函数库是适合于一般晶体学家所用的一些UNIX工作平台的。
• MMDB
MMDB文件格式依靠ASN.1(Rose, 1990)数据描述语言定义,这类数据描述语言也可用于包括远程通讯和自动化制造在内的其它类型领域。由于美国国家药物图书馆也用ASN.1对序列和目录信息进行数据说明,所以MMDB格式还借用了其它数据说明的特定方式,如用于描述数据记录所引用参考著作书目的部分。ASN.1文件可以人类可读的文本文件或各种二进制文件或可被任何硬件平台解压的二进制文件类型出现。MMDB标准残基词典是一个有关标准生物高聚体残基类型化学图像的信息查询表。MMDB格式说明被保存在NCBI 的MMDB FTP站点上。比较“mmCIF词典”, MMDB ASN.1说明更紧凑,数据条目更少,避免了衍生数据的堆积。
与mmCIF关系表设计对比,MMDB数据记录分层记录结构组织。在性能方面,ASN.1格式的MMDB文件比mmCIF或PDB记录具有更快的输入、输出流速度。所构建的层次与mmCIF或PDB文件关系设计方案比较,在加载时需要更少的检验步骤。因此ASN.1文件对于三维数据库浏览是较理想的。
对MMDB而言,一个完整的应用编程界面是有用的,可做为包含各类C代码库与应用程序的NCBI工具箱的一部分。NCBI工具箱支持x86和基于Alpha的Windows平台,Macintoch 68K和PowerPC处理器,以及各种类型的UNIX平台。三维结构数据库浏览器,Cn3D,便是NCBI工具箱中的一个基于MMDB-API的附原代码的应用程序。

结构信息显示编辑本段回目录

• 多种表示类型
我们常用多种图像表示类型观察分子结构的不同面貌。因为蛋白质结构记录1BN1在结晶体中有三种barnase分子,所以借用文本编辑器手写PDB文件以删除多余的链。为了使三维结构浏览器依照用户的意图进行显示,在三维分子结构软件中编辑数据文件是习以为常的。既然如此,在三维结构中记录的衍射结晶实验数据并不是来自“生物单元”。“生物单元”定义为三维结构的生理学形式,是目前PDB数据库实施面临的生物信息学挑战之一。在我们的例子中,分子barnase应是唯一的,但相反,对应一个晶体单元,我们却发现了三个分子。又在如图3.3所示的其它例子3TS1(Brick等,1989)中,分子是一个二聚体,但PDB文件中仅记录了相称子单元中的一个,文件的注释记录中以非解析的形式写入了一个旋转变换阵。从对称的操作中重建生物单元是具有挑战意义的,需要专用软件实现。
图3.4a所示的金属框架类型图像清楚地显示了barnase的化学结构特性,我们可以从交互计算机显示的图像中看到barnase序列轨迹。图3.4b所示的空间填充模型图像清楚地显示了生物高聚物的表面形状和尺寸,但用这种表达,理解化学细节和键链接是很困难的。图3.4c所示的 碳骨架图解是一种典型的结构表达方式。它显示的并非是化学键链接,但这些链接向我们显示了蛋白质骨架中 碳的构成走向,故称之为“虚拟键”。图中选择了紫色的色氨酸侧链,并用画圆点的方式标注出来。图解中,barnase的三个氢核区域中的三个色氨酸侧链所占据的空间体积被加亮,以示突出。
• 描绘数据:群体、退化与动力学
利用X衍射NMR技术从分子的“同步”群体(包括规则晶格的空间“同步”及由外部磁场产生的核旋转状态行为的“同步”)推断出三维结构。群体的信息被收集为一整体。用数值方法获得结构中原子的(X,Y,Z)坐标位置。由这些数据获得的样本的化学图像与源自实验的三维结构数据构成的期望图像相一致。这个期望的化学图像包含源自序列的生物高聚体信息的混合,这与例子中所提出的诸如酶作用物、添加基团、离子等已知小分子的化学图像性质相同。
分子群体应用略微不够理想的结果是出现数据库记录中退化坐标匹配,如化学图像中一个原子对应多个坐标。当分子群体具有明显的异质构造时,将被记录在数据库中。
• NMR原型和集合总体
在图像中有许多不同的复杂结构首尾相连堆积在一起。每个结构被称为一个“原型”,所有“原型”的集合称作“集合总体”。在“集合总体”中的每个“原型”是一个非手性镜象的,似是而非的结构,同“集合总体”中的其它“原型”一样,与基本的NMR数据相符合。
NMR结构 “集合总体”的图像显示了分子在溶解状态下的动态多样性。反应于实验中,即是溶解状态下的自由分子能够进行动态结构变化。形成对比的是,X射线衍射结构提供了一幅静态分子图像。它反映了在限制动态结构变化的规则晶格状态下实验条件。这些图像形象地说明了结构特征。若利用X射线衍射结构测量两原子间的距离,我们将得到一个数值;而用NMR结构“集合总体”,将得到一取值区间。很明显,对距离的说明将依赖于三维结构的来源!当心忽略或未能显示结构数据库中表示的群体退化的软件,因为这种信息的缺失会进一步导致对说明的曲解。用隐藏了“集合总体”中其它成员的软件量测NMR结构中两原子的距离将只给出单值,并不是实验学家所发现的正确的距离区间。
• 相对无序性
典型的X晶体衍射结构只有一个“原型”。但一些原子子集合可能还有退化的坐标,我们称这种情况为“相对无序性”。许多X射线衍射结构数据库记录具有“相对无序性”。三维分子图像软件常忽略“相对无序性”和“集合总体”的存在。一些应用程序仅显示“集合总体”中的第一个“原型”, “相对无序性”集合中原子的第一个位置,忽略其它退化的坐标值。最糟的是有时会在两个退化位置间错误地连上化学键,使得结构图像一团糟。
• 局部动态性
一种单一技术可用于限制相同结构中不同于其它原子的构型。举例说明如下:一个多种作用力作用的内部原子或骨架原子在NMR或X衍射实验数据上是大部分一致的,因而分子表面上的原子拥有更大的结构自由度。内部蛋白质侧链典型地显示了“集合总体”上较少的柔韧性,所以可以得出结论:蛋白质内链完全缺少构型源动力。但最敏感的生物物理方法,单色氨酸残基的荧光染色分光,具有特殊的检测色氨酸侧链构型的多样性的能力。对这种方法进行多年的反复研究,显示在多相结构中,纯化蛋白质内部的色氨酸布局更易出现(Beechen和Brand,1985)。最近对这一方法的研究表明此方法能够在单晶erabutoxin中检测色氨酸的折叠,而用X射线晶体学方法(Dahms和Szabo,1995)是做不到的。在说明三维结构数据时,注意在数据中多相性是不被体现的,除了实例中提供的大部分布局形态外,NMR和X衍射方法的结果是一致的

数据库结构浏览器编辑本段回目录

• RasMol和基于RasMol的浏览器
一些检查PDB文件的浏览器是有效的(Sanchez-Ferrer等,1995)。最流行的浏览器是Roger Sayle的RasMol(Sayle和Milner-White,1995)。RasMol代表了软件驱动三维图像显示的重大进展,它的源代码对于有兴趣于高性能三维图像的任何人都是受欢迎的学习材料。RasMol格外小心地处理PDB数据,经常重新计算信息,以弥补在基本的数据中出现的不一致性。它并非致力于证实PDB文件中编码的序列或结构的化学图像。RasMol本质上即未完成基于“词典”的标准残基检验,也未完成隐性与显性序列的匹配。RasMol忽略了相关的混乱“集合总体”,一次仅显示一个NMR“原型”。在PDB文件中编码的其它数据,如二硫键,不是利用直接检验,而是通过基于化学规则的重新计算得到的。
RasMol包括许多出色的输出格式,能够被Molscript(Kranlis,1991)程序用来制作奇妙的用于出版的“PostScript”带状图表。为了能最有效地利用RasMol,必须掌握它的在许多传统三维结构程序软件中被普遍使用的命令行语言。在Massachusetts大学由Eric Martz维护的RasMol主页中可获得RasMol图像显示,RasMol指南,源代码和基于用户的邮件支持列表等RasMol操作服务。
一些对学术界用户免费的新软件程序日益通用,这些软件程序是基于RasMol软件驱动三维透视图算法和零星的PDB语法分析的,其中包括MDLL公司提供的嵌入到Netscape中的Chime软件。由Dirk Walther开发的Java Applet程序WebMol是表面上借助RasMol类型透视图,基于Java的三维结构浏览器,如图3.3示。WebMol软件已证明目前在大多数PC机和工作站上使用的Java字节编码的编译器不足以快速地完成超过200个残基的RasMol类型软件驱动三维透视图的显示。这限制了WebMol的适用对象只是小型结构和分子的实际化学键模型。
• MMDB浏览器:Cn3D
Cn3D是一种新的三维结构浏览器,用于浏览MMDB数据记录。由于MMDB数据记录克服了一些PDB条目数据化学图像模棱两可的缺点,并且所有的键信息是“显性的”,所以Cn3D具有可靠地显示三维数据库结构的能力,而不需要语法分析,校验和PDB文件读入程序的例外情况处理等环节。Cn3D默认的结构图像更具有资料存储与显示处理的能力,因为它不会受数据错误表达的影响。但因为Cn3D依靠MMDB中ASN.1记录的完整化学图像信息,所以它目前尚不能读入PDB文件。
Cn3D提供了一套“控制面板”,可以在三维图像的一侧隐藏或显现。例如,在三维图像顶端显现的Viewer Control面板,具有一套看起来象磁带录制机控制键的图像动画控制键,用于逐个显示NMR获得的多个结构“集合总体“或VAST相似性关系图像中的重叠结构。“GO”键使图像形成动画,当图像以动画形式显示时。用户可以旋转或放缩结构。发行前景被看好的Cn3D 2.0将具有完整的状态存储能力,使结构彩色化描述,以ASN.1结构记录形式存储信息和手工编制PDB文件或手写文本更新成为可能。这些信息可以被不同工作平台的用户共享。
• 其它三维浏览器:Mage、CAD和VRML
各类文件格式已被用于表示缺少化学细节的数据表达的三维生物高聚物结构数据。普通的浏览器,例如那些用于处理“宏观”数据的工程软件或虚拟现实浏览器,可用于浏览这些文件格式。“Protein Science”杂志出版了这样一个通用文件格式:Kinemage(Richardson和Richardson,1992,1994)。这是第一个被广泛运用的分子结构软件,在因特网和WWW网出现之前,是个人计算机用户的通用软件。象Kinemage和VRML这样的文件格式包括三维图像显示信息,而几乎没有关于基本分子化学图像的信息。并且,在这样的文件中编码各类描述文件是困难的。分子填充模型、金属框架模型和球棒模型等各自需要单独的VRML文件,因为在文件中必须包括每一个图像物体(圆柱体、线、球体)的明确列表。
生物分子三维结构数据库记录目前与例如基于CAD软件的那些“宏观”软件工具是不兼容的,计算机辅助设计软件技术是成熟并且具有鲁棒性的,一般优于可利用的分子结构软件。但CAD软件和文件格式由于缺少某种用于蛋白质结构细节观察的“专门“视角和分析功能,而不能在分子研究领域中完全适用。
• 查找出版的结构
作为几乎所有结构�功能信息的基础,结构是真正有价值的数据,以至于一些结构科学家不情愿将他们的数据移交给公共数据库。过去,一些杂志没有要求立刻将结构提交给Brookhaven Protein Data Bank。由于作者从未扰乱或从未选择不将他们的数据提交给公共数据库,而导致了“不合法”的结构的增加,这种情况往往是由于用于确定结构的准则的某一部分具有多种可能性造成的。随着新的成功的折叠识别技术(如threading)的出现,结构的“holding back”导致发现机会的丧失。新的计算方法依靠完整的三维结构数据库。
告诉一个结构的著者应从出版的著作而不是从这里列出的数据库中获得三维结构是必要的。在获得结构之前,结构科学家应首先找到描述感兴趣坐标的原始文献。下一步,利用Brookhaven Protein Data Bank中的“Pending/Waiting List”进行完全的检索,看看是否结构数据正在被处理或仍在“架上“。如果这些可能性已被排除,给文献的主要著者发封信,直接从中获取坐标信息。通常,著者将提供原始的PDB文件,这种文件能够在其他研究者的PDB软件中浏览之前,尚需要一些编辑(通常是重编号)。如果必须编辑PDB文件,应首先学习其它PDB文件的结构及查阅在线的PDB格式文本。

附件列表


→如果您认为本词条还有待完善,请 编辑词条

上一篇GenBank序列数据库 下一篇Wisconsin软件包程序与SeqLab

词条内容仅供参考,如果您需要解决具体问题
(尤其在法律、医学等领域),建议您咨询相关领域专业人士。
0

收藏到:  

词条信息

已删除
此用户已删除
词条创建者

相关词条