生命经纬知识库 >>所属分类 >> 生物信息学技术   

标签: NCBI ENTREZ

顶[0] 发表评论(33) 编辑词条

查询NCBI数据库最简单的方法可能是使用名为Retrieve的邮件服务器。检索服务器通过简单的关键字搜索来查询记录。一次可以检索一个可用的数据库,可以是简单的(只含有一个关键字〕或复合的(含有由逻辑算符组合的多个关键字)。服务器的地址为retrieve@ncbi.nlm.nih.gov。同大多数邮件服务器一样,如果向服务器发送一封正文只含一个单词Help的邮件将会返回一个关于如何使用检索服务器的详尽的解释。
目录

[显示全部]

集成信息检索:ENTREZ系统编辑本段回目录

检索服务器可以对有目标的检索记录,但它主要的缺陷在于一次只能从一个数据库中检索到记录;想对一批数据库进行检索的用户必须为每一个目标数据库分别发出一次申请。很明显,这些大量的公用数据库之间存在着逻辑联系。例如,MEDLINE中的一篇论文可能描述一个基因的序列,该基因又在GenBank中出现。其核苷酸序列所编码的蛋白质的序列又存放在蛋白质数据库中。这种蛋白质的三维结构可能又是已知的,结构的数据可能出现在结构数据库中。最后,基因可能定位在某条染色体的某个区域,这类信息存放在图谱数据库中。
在这些生物学上的联系的基础上开发了一种方法;可以通过它查询所有与某一特殊的生物学实体有关的所有信息,而不必按次序查询分立的数据库。这就是一个名为Entrez的分子检索系统。它由NCBI开发和维护,Entrez在所有的主要的数据库计算机平台上均可使用,允许对PubMed(MEDINE)的记录,核苷酸和蛋白质的序列数据,三维结构信息,图谱信息进行集成的访问。全部信息只需经过一次查询。Entrez能够通过数据库之间的两种类型联系:相近性和硬连接来提供集成的信息检索。
相近性
相近性联系着一个给定的数据库之内的记录。使用者在查看MEDLINE中某条记录时可以要求Entrez"找出所有类似的论文",类似的,使用者在查看一个序列的同时可以要求Entrez"找出所有与这个序列类似的序列"。一个数据库之内的相近性关系是建立在对相似性的统计计算上的:
BLAST 序列数据可以用基本局部对比搜索工具(Basic Local Alignment Search Tool,即BLAST)相互比较。这个算法试图找到"高度匹配的片段对"(high-scoring segment pairs,简记为HSPs),即能够无缺口的对齐且达到一定的分数的成对的序列。
VAST 几套坐标数据之间的比较采用一种名为VAST的基于向量的算法。VAST即Vector Alignment Search Tool(Madej等,1995;Gibrat等,1996)。VAST的比较有三个步骤:
1.第一,在坐标数据的基础上,标出所有的构成蛋白质的核心部分的α螺旋和β片层。然后根据这些二级结构单位的位置计算向量。以下的步骤使用这些向量来做对比而不是整个一套坐标。
2.然后,算法试图最佳的匹配这些向量,寻找类型和相对方位相同的成对的结构单位,并且在这些单位之间还要有同样的连接方式。其目标在于识别高度相似的"核心结构",这些成对结构的匹配性要比随机的选择蛋白质相互比较得到的高得多。
3.最后,在每个残基位置上使用蒙特-卡洛方法对结构的排列进行优化。
使用这个方法有可能找到一些序列相似性不明显的蛋白质之间的结构上的关系(可能在功能上也有关系)。最后的对齐结果不一定是全局的,可能在不同的蛋白质的单独的结构域之间配对。
需要重点注意的是VAST不是确定结构相似性的最好办法,因为还可以利用三维坐标文件中的其它信息来做更进一步的修正,如考虑侧链的位置及侧链之间的相互作用的热力学特点。而把结构压缩成一列矢量必然会导致信息的丢失。然而,考虑到这个问题的数量级-即需要做的成对比较的次数-及采用更高级的方法所需要的计算能力和时间,VAST至少为结构相似性问题提供了一个简单和快速的答案。关于别的基于X射线或NMR坐标数据的结构预测方法可以参见第11章。
加权的关键词 序列数据对比问题与MEDLINE记录的对比相比较还是容易一点,MEDLINE的记录是自由书写的文本,语法上不固定。Entrez使用了名为"相关配对模式检索"的方法来做这种对比,该方法依靠的基础是加权关键词(Wilbur和Caffee,1994;Wilbur和Yang 1996),这个概念用具体的例子来描述比较合适。
硬连接
硬连接的概念比相近性的概念更容易接受。硬连接用于联系不同的数据库中的记录,只要这些记录之间存在逻辑联系,就存在硬连接。举例来说,如果一条MEDLINE记录是关于??装配型质粒的,那么在这条记录和对应的核酸记录之间就建立一条硬连接。如果这个装配型质粒??上的一个开放阅读框架编码某种已知的蛋白质,那么在核酸记录和蛋白质记录之间就建立一条硬连接。如果这种蛋白质恰好已经有实验测出了它的结构,那么在这条蛋白质记录和结构记录之间也会建立一条硬连接。
搜索的入口点
本上可以从任何地方开始使用Entrz系统搜索-使用者不必考虑从何处进入信息的空间。然而,选取不同的数据库作为搜索的起点就会有不同的域可以用于搜索。这显然是由于不同类型的数据库中的记录必须有不同的组织方式,以反映了它们所编目的实体的生物学特点。表5.1列出了每个Entrez系统中的数据库可以用于搜索的域。
实现
不考虑平台的差异,Entrez的搜索可以用两种界面进行。第一种称为Network Entrez,是用客户-服务器方式实现的。这是Entrez程序中最快的,它直接连接到一个NCBI的"发送者"。其图形用户界面的特点是一套窗口。由于客户软件存于用户的计算机上,需要用户去获取,安装和维护软件,软件加入了新的特征时可以下载更新的部分。安装的过程相当简单。
第二种实现方法是在环球网上,称为WWW Entrez或者Web Entrez。可以利用各种可用的网页浏览器,例如Internet explorer或Netscape,它们把搜索结果传回桌面上。使用网络浏览器的用户不必再确认是否安装了最新的Entrez版本-只要浏览器是较新的版本,查询的结果总是通过最新的Entrez版本得到的。Web版还有另外一项用处,上述所有的相近性关系和硬连接关系都可以用超文本表示,用户可以通过点击记录上的特定的词来浏览。
用网页实现比网络版进步的地方在于网页可以有连接到外部数据源的能力。如由某个杂志或出版社维护的论文的全文版本,或某些本来不是Entrez组成部分的专门的数据库。网络版的速度上的优势同时导致了这方面的限制,直接连接到NCBI发送者意味着用户一旦连接到NCBI就不能再转移到别的任何地方。这两种方法的另一个主要区别在于表达方式上,网络版用一套窗口而网页版用一系列的网页,服从标准的网页规范。选择哪一种是用户的爱好问题,两种方法在Entrez的搜索空间中得到的一样的结果。

Entrez的查询方法:举例编辑本段回目录

假设用户要检索关于hiv 1的摘要。使用Entrez查询窗口,在查询框中输入hiv 1,选定Text Words为检索域(即在标题和摘要中查找HIV 1的出现),选择List Terms为查询模式。(当然也可以用Organism作为检索域;使用两种不同的方法进行检索并观察输出的不同对用户来说是一个很好的练习。)检索命中后会打开一个新的网页。这一页包含一个词条选择窗口,用户可以浏览与原来的词条(HIV 1)最接近的词条。注意选择窗口在HIV 1后面还显示了很多略有区别的其它条目。如果用户选择的是Automatic模式,就会忽略这些额外的条目,这样可能忽略了重要的信息。采用List Terms模式,就可以使用户看到原来的检索词的各种变种。
到这一步还没有实际检索到记录。要检索记录用户要先在词条选择框中点击需要的词条(此处为hiv 1)然后点击Select按钮。随后打开的网页的上部显示了现在检索的状态和查到的记录数。执行上面所述的查询返回了17,943条记录,数量太大了,任何人都无法完全过滤一遍。因此有必要进行修正以减少返回的摘要的数量。如果用户对HIV 1的杂二聚体??的折叠感兴趣,可以用heterodimers和folding作为附加的检索词,重复上面的步骤。虽然每个单独的词都能检索到成千上万条记录,它们的组合只查到6条记录。在Entrez系统中,缺省的逻辑算符是AND,在检索词下方的修正窗口中可以看到。
为了看到实际的检索结果,用户应点击标记为Retrieve 6 Documents的那个按钮;随后会打开新的窗口。窗口中每一条记录有下面几个部分:检查框,第一作者的名字,出版年份,标题,引用信息。选中窗口底部的Jacoco-Molina 1993年的记录;点击作者名字打开另一个窗口,这个窗口包括引用信息,论文名称,所有作者列表,来源及摘要,以标准的引用格式书写。
在Display按钮后面的下拉菜单中可以选择一些别的格式。切换到Absttract格式将得到起来非常相似的记录。差别在于在摘要后面显示了一些分类信息如MeSH条目以及与这条记录有关的编有索引的材料。使用MEDLINE格式将打开MEDLINE/MEDLIARS页面,记录的左边有每个域都对应的两个字母的代码(如作者域的代码为AU)。这种格式的记录可以存储而且能容易的输入到第三方的目录管理程序,例如EndNote和Reference Manager。
连接按钮是用户可以进一步查看刚才讲过的相近性和硬连接关系的入口点。如果用户点击Related Articles按钮,Entrez会显示出有133条与Jacobo-Molina这条记录相关的记录-即有133条具有相似的主题的记录。-这些论文的前20篇显示在图5.9的一个新的列表中。第一篇是原来的那篇关于HIV 1反转录酶的晶体结构的论文。这一篇称为原记录,它显示在列表的上端,相近的记录列在后。这些相近记录的排列是按照相似程度降序排列的。因此最靠近原记录的被认为是与原记录最接近的。浏览一下标题用户就可以很容易的找到与HIV 1的蛋白质有关的结构和功能研究的有关信息,可以很快的得到相关索引的目录。当用户在写论文的时候这种功能尤为有用而且节省时间。因为用户在到图书馆的书架中去寻找之前就可以浏览摘要并选定真正感兴趣的论文。
从这个新的论文列表中,用户可以通过使用列表中每一项旁边的检查框来找到硬连接的记录。仍然用这个例子,将Display按钮后面的下拉菜单选为Proteins links然后点击Display按钮,将会从蛋白质数据库中找到与本页这条MEDLINE记录有关的19条记录并列表。这一页的格式与已经在MEDLINE中见过的那些格式相同,区别在于每条记录后面有一些超链接对应可用的其它格式或对应相近和有硬连接的记录。有用的格式之一是FASTA,它提供了一种格式可以输入到大多数序列分析程序中去。点击相近蛋白质的超链接所得到的输出大体上是对这个蛋白质序列用BLAST搜索的结果。用户可以以相似的步骤访问核酸数据库。
这次查询得到的蛋白质记录的列表中有IHIV-A和IHIV_B的记录,是一种HIV-1反转录酶在一个点发生突变的突变体(Cys280→Ser)。点击Graphic View连接将打开一个图形方式的视图,看到这条记录的特征表中的所有信息。这个蛋白质有大量的二级结构单元,用这种类型的视图可以很容易的准确的整理出沿着蛋白质链有那些二级结构单元。如果点击标有1 Structure Link的超链接,将打开一个结构一览页面(5.12)。这一页显示的细节是从源PDB文档的标题开始,还有三字母格式的原始结构,到其它信息的链接,如VAST相近记录的列表。如果点击"View/Save:IHIV"下面的View按钮,则将调用Cn3D软件,打开新的窗口显示结构透视图。有些用户对于蛋白质的外形的直观形象感兴趣,Cn3D为此提供了强大的界面。它所给出的信息比任何人从观察字符串(蛋白质的序列)中所能得到的信息更多。可以通过窗口底部和右边的滚动条沿着轴旋转蛋白质分子,或者当光标在窗口中时用点击然后拖拉的方式随意的旋转它。用户也可以放大观察结构的某部分,必要时用数字给残基编号;如本例中的一处变异的位点可以标出。用户也可以改变图的着色方案以确定该蛋白质的特殊的结构特征。在图5.13的例子中,涂刷和着色的方案分别空白填充和疏水性。这个组合的方案可以用于观察表面的电荷分布,指示出蛋白质的那些是蛋白质之间相互作用的部位,那些是蛋白质和DNA作用的部位。关于Cn3D的进一步的资料在地3章中。Cn3D的文档中也有。另外,用户也可以把坐标信息存入到一个文件中,用第三方的程序来观看,如Kinemage(Richardson与Richardson,1992)和Rasmol(Sayle与Milner-White,1995)。

集成的信息访问:查询服务器编辑本段回目录

有时候用户没有Entrez平台可用,他将只好通过电子邮件来进行检索。也有可能用户在实验室通过T1连接在环球网上访问Entrez但速度又不够快。Query是一种使用电子邮件的Entrez,它能满足需要。Query的思想与Retrieve非常类似,但是一次能查询不止一个数据库。Query可以在一个指定的数据库范围中查询(蛋白质,核酸,结构或MEDLINE),而且能返回相近的和有硬连接的记录。
同使用Retrieve一样,Query的用户向服务器发出查询请求时必须遵循规定的格式。(Query也支持Retrieve的语法,所以向Query服务器发送Retrieve格式的查询请求也能正确执行。)最简单的查询是使用检索词。执行这种查询要先给定目标数据库和一个或几个检索词。用Query和用Retrieve一样,基于词的检索可以限定在数据库记录的特定域中,这样得到的结果更好。

NCBI上的序列数据库编辑本段回目录

从上面的论述看起来,NCBI似乎是序列数据领域的中心,但世界上还有其它的一些专门的数据库也在科学交流中发挥特殊的作用。这些数据库通常提供一些辅助的信息,如性状,实验条件,杂交??,以及图谱特征。这些数据对于科学交流的某些领域来说很重要,因为它们有助于合理的实验设计。然而这些数据不完全符合NCBI的数据模式的限制,因此建立了这些专门的数据库,它们将被用来作为GenBank的附件而不是作为它的一部分。
这些特殊的数据库之中的两个是酵母基因组数据库(Saccharomyces Genome Database,即SGD)和Arabidopsis thaliana数据库(AtDB),两者都在斯坦福的人类基因组中心。关注SGD是因为
酵母的全基因组已经被测序,这个数据库提供了一个非常简单的查询界面,使用基因名,基因信息,无性系,蛋白质信息,序列名,作者名,或全文来作文本方式的查询。例如,用GeneName作为检索主题,hho1为基因名查询,将会打开一个SacchDB信息窗口,显示所有的关于HHO1座位的信息。座位窗口中还有连接到别的数据库的跳转点,如MEDLINE,酵母蛋白质数据库(Yeast Protein Database,即YPD)。从这条记录到Sacch3D的连接提供了PDB中找到的HHO1的蛋白质产物的同结构族的信息。还有到二级结构和三级结构预测的站点的连接。及??根据查询一些数据库预先计算出的BLAST报告。返回到原座位窗口,点击Seq&Disply连接,用户将能看到序列的座位周围区域的图形显示。可用的视图包括物理图谱,遗传图谱,染色体特征图谱以及其它。
还有一个这样的专门一种生物的数据库即FlyBase,它的目标是维护果蝇(Drosophila)的基因和分子生物学方面的综合信息。可以用World Wide Web,Gopher,FTP访问FlyBase。可查到的信息包括大范围的果蝇方面的书刊目录,涉及果蝇的项目的研究者的地址,11,000多个基因的38,000多个等位基因的信息汇编,13,000多种染色体畸变,图谱信息,基因产物功能的信息,存储中心和基因组无性系的列表,同类数据库的信息。所有这些方面的检索都可以通过一种简单的检索机制完成。
例如,查找基因符号,capu为检索词,将找到一条名为cappuccino的基因的记录,在果蝇卵母细胞周期的正确极化中需要用到它(Emmons等,1995)。调用图形视图可以显示cappuccino的基因及其细胞学定位及邻近区域的其它基因,用户可以在基因条上点击任何地方查看某个基因的具体细节信息(图5.18)。在这个视图上可以清楚的看到重叠的情况:这儿的cappuccino看来与为转录因子编码的slp1和slp2重叠了。选择窗口底部的类别按钮之一就能改为以查看无性系,缺失,重复,倒置,易位,转座,或其它变异的图形视图。

医学数据库编辑本段回目录

虽然本章的重点在于序列,但对于生物学家来说,除了分类和组织序列信息的数据库之外,还有别的类型的数据库也很有用。例如不基于序列的信息源Online Mendelian Inheritance in Man(OMIM),它是由约翰霍普金斯大学的Victor McKusick编辑的关于人类基因和基因异常的目录的电子版。OMIM提供了来源于出版物的简明扼要的文本方式的信息,内容是关于大多数有遗传学基础的人的正常条件,附有图片解释这些条件和异常情况,配有完备的引用信息。OMIM的在线版位于NCBI,每条记录引用的参考资料都有到Entrez系统的连接。
OMIM提供了一个编号系统对每条记录有一个唯一的编号,与登录代号相似,但数字的某些位表示了与基因异常本身有关的信息。例如,第位表示异常的遗传模式:1表示显性遗传,2表示隐性遗传,3表示X连锁的座位或性状,4表示Y连锁的基因或性状,5表示线粒体,6表示常染色体的基因或性状。(1或2与6的区别是:在1994年5月之前的记录赋予1或2,以后的记录则不论显性或隐性都赋予6。)数字之前的星号表示这个座位上的基因引起的性状不受其它地方的基因的影响:然而异常本身可能是由于多处变异引起的。未确定遗传模式的异常不带星号。最后,#号表示性状由两处或两处以上的基因异常引起的。
OMIM的查询很容易进行。检索引擎根据输入到检索窗口的一个或几个词执行简单的查询,返回含有该词的文档的列表,用户可以在列表中选择一个或更多的异常查看其OMIM记录的全文。记录含有各种信息,如基因符号,病变的名称,对病变的描述(包括临床的,生物化学的,细胞遗传学的特征),遗传模式上的细节(包括图谱信息),临床的说明,还有参考文献。由于篇幅的限制不能在此显示一条完全的记录,建议读者可以试用检索词Alzheimer作输入进行检索,可以得到一条包含OMIM提供的大多数特性的记录。

附件列表


→如果您认为本词条还有待完善,请 编辑词条

上一篇Wisconsin软件包程序与SeqLab 下一篇NCBI数据模型

词条内容仅供参考,如果您需要解决具体问题
(尤其在法律、医学等领域),建议您咨询相关领域专业人士。
0

收藏到:  

词条信息

已删除
此用户已删除
词条创建者

相关词条