生命经纬知识库 >>所属分类 >> 生物信息学技术   

标签: EMBL DDBJ GenBank

顶[4] 发表评论(1059) 编辑词条

GenBank是美国国立卫生研究院维护的基因序列数据库,汇集并注释了所有公开的核酸以及蛋白质序列。每个记录代表了一个单独的、连续的、带有注释的DNA或RNA片段。这些文件按类别分为几组:有些按照系统发生学划分,另外一些则按照生成这些序列数据的技术方法划分。目前GenBank中所有的记录均来自于最初作者向DNA序列数据库的直接提交。这些作者将序列数据作为论文的一部分来发表,或将数据直接公开。GenBank由位于马里兰州Bethesda的美国国立卫生研究院下属国立生物技术信息中心建立,与日本DNA数据库(DDBJ)以及欧洲生物信息研究院的欧洲分子生物学实验室核苷酸数据库(EMBL)一起,都是国际核苷酸序列数据库合作的成员。所有这三个中心都可以独立地接受数据提交,而三个中心之间则逐日交换信息,并制作相同的充分详细的数据库向公众开放(虽然格式上有细微的差别,并且所使用的信息系统也略有不同)。DDBJ/EMBL/GenBank数据库是最常用的核苷酸及蛋白质序列数据库,它储存了大量的公共分子生物学信息。理解各个数据成分的含义,知道如何从记录中提取生物学知识,将极大有助于我们对于这个文件格式的理解。虽然这个数据库从来也不是为用计算机读取而设计的,但已经有一批热衷于计算机的生物学家用整套的计算机程序来对记录进行分析、转换和信息抽取工作。DDBN/EMBL/GenBank在国际合作DNA序列数据库内部维护一种数据交换格式,这在近几年可能不会改变,尽管存在着象ASN.1那样更好的,信息更丰富的其它选择。但现在的安排也有好处,这是一个便于阅读的简单格式,能代表它希望描述的生物背景知识。

目录

[显示全部]

一级和二级数据库编辑本段回目录


一级和二级数据库之间存在着本质的差别。序列数据库对科学界最重要的贡献就是这些序列本身。一级数据库记录了实验结果,以及一些初步的解释。而更进一步分析工作的结论只能从二级数据库中查找到。一级数据库中的核苷酸序列记录是从直接实验得到的,这些记录是对存在于某个实验室的试管中的生物分子测序的结果。它们不代表共有序列(虽然是多次读取同一克隆,或相同的基因来源),它们也不代表一些计算机生成的字符串。这在序列分析的解释中很重要,也意味着在大多数情况下一个给定的序列就是研究者所需要的全部。每一个这样的DNA或RNA序列都将被注释以描述对实验结果的分析,这一分析阐明了为什么这一序列会被这样确定。
在DNA序列记录中的一种常见的注释是编码序列(CDS)。大多数蛋白质序列都不是直接由实验确定的,而是通过DNA序列得到的。这在实验、计算以及相似性比对工作中占有很大的比重。这并行于赋予一个产物名称,或者功能说明(通过对相似性比对的分析)。这一方法很有效,但也有误导的可能。DNA,RNA和蛋白质序列都是计算分析工作的对象,它们是一级数据库中有价值的成分。

格式与内容:计算机与人编辑本段回目录

FASTA格式广泛应用于许多分子生物学软件包之中。作为最简单的情况(正如上面所显示的),大于号(>)表示一个新文件的开始。
在分子生物学的历史上曾经使用过许多格式,其中有些格式现在还在使用,同时也有许多工具用来在这些格式之间转换数据。NCBI的asn2ff程序可以将ASN.1文件转换为多种flatfile文件格式,它可以生成GenBank、EMBL、GenPept、Swiss-Prot以及FASTA格式的文件。这一程序包含在NCBI工具软件包之中(见第6章)。Don Gilbert的READSEQ(见本章末的互联网资源列表)是另一个广泛使用的工具,已包含在许多软件包中。在使用这些工具进行格式转换时,用户应当注意,有些GenBank或EMBL格式下的特性将被丢失。READSEQ只工作于序列自身,并不处理注释部分。那些只需要序列数据的程序最好使用FASTA格式的序列来进行查询。尽管FASTA格式的信息含量比其他格式少,但它提供了人和计算机都可理解的处理原始数据的简单方法。

数据库编辑本段回目录


所有在EMBL中出现的序列也都包含在DDBJ和GenBank中,反之也如此。GenBank每两个月发布一次新版本,并且每天都通过匿名FTP提供递增式(以及非递增式)的更新。几个核苷酸数据库之间也每天以如同特性表文档(见下面)所描述的公共数据格式交换新生成的以及更新过的数据记录。这一特性表是了几个核苷酸数据库进行注释的共同语言。同时,核苷酸序列数据库还发展了一套数据提交流程,这是一系列关于数据记录内容和格式的指示。
核苷酸记录是主要的序列数据和生物信息来源。大多数蛋白质序列数据库中的序列是从核酸数据库的记录中推导出来的,这导致了两个重要的结果:
1. 如果一个编码序列没有能在核酸记录中正确地标识出来,它就不会出现在蛋白质数据库中。查询蛋白质数据库是最有效的相似性检索方法(见第7章),这样,应当但却没有在被研究的mRNA或基因序列中标识的CDS就有可能导致丢失重要蛋白质序列。
2. 不幸的是,在核酸数据库特性表文档中特别应用于蛋白质序列的特性是十分有限的,正如本章末的列表所显示的那样。

剖析GenBank Flatfile编辑本段回目录

GenBank flatfile(GBFF)是GenBank数据库的基本信息单位,也是最广泛地用以表示生物序列的格式之一。在本书写作的时候,它也是从GenBank到DDBJ和EMBL数据库,以及EMBL、DDBJ之间或向其他数据库交换数据时所采用的格式。DDBJ flatfile格式与GBFF格式是相同的。EMBL格式则每行都带有前缀,以表明本行的信息类型。注释部分前缀为“FT”,在内容上与其他数据库相同。所有这些格式实际上都是由更结构化的ASN.1生成的。但是主要由于历史的原因,许多用户(专家或非专家)在工作中使用GBFF(或EMBL flatfile格式)
GBFF可以分成三个部分,头部包含关于整个记录的信息(描述符)。第二部分包含了注释这一记录的特性,第三部分是核苷酸序列自身。所有的核苷酸数据库记录(DDBJ/ EMBL/ GenBank)都在最后一行以 // 结尾。

头部编辑本段回目录

头部是记录中与数据库关联最大的部分。各个的数据库并不一定在这一部分包含相同的信息,而可能存在着微小的差别。但各数据库已作出努力以在彼此之间保证信息兼容。
所有的GenBank flatfile开始于LOCUS行:
*********************
这一行中的第一项是LOCUS名称。历史上曾用这个名称来表示本记录描述的基因座,提交者和数据库工作人员花费了无数的时间来设计这一名称。这一成分开始于一个英文字母,总长度不能超过10个字符。第二个字符以后可以是数字或字母,所有字符均要大写。LOCUS名称在以前是最为有用的,那时大多数DNA序列记录只表示一个基因座,这样在GenBank中寻找一个可以用少数几个字母和数字来代表生物体的独特的名字是很容易的事。经典的例子包括HUMHBB:人β-珠蛋白基因座,或SV40:猿猴病毒(拷贝之一,因为存在许多拷贝)。为了可用起见,LOCUS名称在数据库中必须是独一的。因为几乎所有有意义的命名符都被使用过了,所以今天LOCUS名称已不再是一个有用的成分。但仍有许多软件包依赖于一个独一无二的LOCUS名称,所以数据库还不能将其彻底去掉。可行的办法是代之以一个独一无二的词,最简单的是用一个保证不会重复的检索号码,象例子中的AF010325那样,以满足对LOCUS名称的要求。
**********************
下一项是序列长度,从1到350,000bp。在实践中GenBank和其他数据库很少接受50bp以下的记录。所以一般不鼓励将PCR引物(24bp)作为序列提交给数据库。350kb限制是一个经验值,各个数据库用不同的方法提供更长的重叠群。
**********************
LOCUS行中的下一项表明生物分子的类型。“分子类型”通常是DNA或RNA,但也有少量其他类型出现,它们也都表明单链或双链(ss或ds)。这些属性现在已经很少使用了,这也是另一个历史遗留物。这些包括类型:DNA、RNA、tRNA、rRNA、mRNA和uRNA,以表明生物分子的最初来源。例如,cDNA测序实际上代表了一个mRNA,而mRNA才是这个序列真正的分子类型。如果tRNA或rRNA是直接或以cDNA为中介测序的,那么tRNA或rRNA就是分子类型。如果序列是通过聚合酶链反应(PCR)从基因组数据中得到的,那么DNA是分子类型,尽管这一序列实际上编码结构RNA。
**********************
下一项是GenBank分类码,由三个字母组成,这或者具有物种分类意义,或者出于其他分类目的。这一代码的存在也是由于历史的原因,可以追溯到GenBank为了保持可管理的文件大小而将整个数据库按物种分类分割为几个文件的时候。GenBank的分类与EMBL以及DDBJ略有不同,这在其他文献中有介绍(Ouellette and Boguski, 1997)。在历史上这种分类是非常随意的,现在已不再象历史上那样起到重要的作用,因为物种分类信息已经表现在了“生物体”行以及“来源”特性中。这比仅用三个字母作为分类码要清晰明确得多。NCBI近几年来没有再采用更多的基于生物体的分类,但有些新的基于功能的分类却显得越来越重要,因为它们代表了功能方面可定义的差别(Ouellette and Boguski, 1997)。已表达序列标记(EST)分类在1993年被采用,其后很快又增加了序列标记位点(STS)类。还有基因组综述序列(GSS)和未完成的高通量基因组序列(HTG)都代表了按功能划分的一类数据,这些都要求用户以及数据库工作人员用不同的方法来处理。例如,用户可以在这些数据集中检索(例如通过FLASTN在EST或HTG分类中查找),并对命中的记录做进一步分析解释。这时,所有数据库均以相同的方式来说明功能性分类,并且在任一数据库中所有的数据集都会出现在同一分类中。CON类是一个正在计划被使用的新的实验性分类,将用来表征通过重叠群构造的片段或大的整合序列。这样就很有可能超出现在对单一记录的350kb限制。这样的记录可能以如同附录2.4的形式出现,这个CON类记录给出了大肠杆菌的全基因组序列,长度在4.6mb以上。这个记录没有包含序列或注释,但包含了如何将存在于其他分类中的片段拼接成完整序列的指示。这一实验性分类中的记录将带有检索号和版本号,并且同其他记录一样,在几个合作者之间交换。所有被切分的数据也将出现在这一分类中。
*********************
LOCUS行中的日期是数据最后被公开的日期。在许多情况下,也是第一次被公开的日期。记录中包含的另一个日期是序列提交给数据库的日期(见下面)。必须注意的是,这两个日期并没有法律保证,数据库并未声明这两个日期是正确的。所以它们只供用户参考,并不能作为仲裁的判据。就作者的经验,它们也从未被用以作为优先权声明或专利权请求的依据。
**********************
DEFINITION行(也称为“DEF”行)在GenBank记录中用以总结记录的生物意义。这一行将出现在NCBI的FASTA文件中,这样任何人进行BLAST相似性搜索时都会看到这些信息。生成这一行时要非常小心,因为许多记录生成工作可以部分地自动进行。所以数据库工作人员要检查这一行以保证信息的一致性和有效性。但是,用一行文字来说明生物背景并不总是可行的,对此不同的数据库采用了各自的解决方法。其中有一些共识,并且每个数据库也都了解其他数据库的解决方法,并尽力与之一致。下面是DEFINITION行结构标准的一个小结。对于mRNA,可以象这样:
属 种 产物名称 (基因符号) mRNA complete cds
或者对于基因组记录:
属 种 产物名称 (基因符号) gene complete cds
当然,各个数据库采用的解决方法也考虑到了其他类型的记录。下列这些规则应用于细胞器序列,以保证用户及数据库工作人员明了DNA的来源和生物背景(假定提交者是明了的):
DEFINITION 属 种 蛋白质X(xxx) gene, (下列选一)
complete cds.
, 编码线粒体蛋白质的核基因
, 编码叶绿体蛋白质的核基因
, 编码线粒体蛋白质的线粒体基因
, 编码叶绿体蛋白质的叶绿体基因
或者
DEFINITION 属 种 XXS 核糖体RNA gene, (下列选一)
complete sequence.
, 编码线粒体RNA的线粒体基因
, 编码叶绿体RNA的叶绿体基因
基于一项合作数据库之间最近达成的协议,将在DEFINITION行中给出属和种的全名,而不再使用通用名(如human)或属名缩写(如H.sapiens)。数据库中在此协议之前生成的记录将最终按此协议进行更新。只有一个生物在这个协议之外,那就是人免疫缺陷病毒将在DEFINITION行中表示为HIV1和HIV2。
******************
检索号在记录的第三行,是从数据库中检索一个记录的主要关键词。这个号码将在参考文献中被引用,并始终和序列在一起。就是说,当序列被更新(例如更正一个核苷酸)时,这个号码不会改变。检索号码采取下列两种方式之一:1+5或2+6格式。1+5格式是指1个大写字母后跟5位数字;2+6格式是指2个大写字母后跟6位数字。绝大多数新近加入数据库的记录采取后一种方式。所有的GenBank记录都只有一个单独的ACCESSION行,行中可能有多个检索号码,但绝大多数情况只有一个检索号。这通常称为主检索号码,其余的是二级检索号码。
*********************
不幸的是,在以前二级检索号码还有一些不同的含义,但定义方式并不统一。二级检索号码可能与主检索号码相关,或者主检索号码只是已经取消的二级检索号码的替代品。合作数据库正在努力使后者成为任何情况下的缺省方式。但因为二级检索号码已经使用了15年以上(在此期间GenBank的管理方式也经过了多次调整),能阐述所有情况的全部数据已无从得到。
*********************
NID行是了核苷酸序列的gi号码(geninfo identifier)。前缀字母(d,e或g)表明是哪一个数据库生成了这个号码,或这一号码用于哪个数据库。因为NCBI首先使用了这个号码,所以DDBJ和EMBL用NCBI(GenBank)指定的号码来填充他们的数据库。简单地说,一个gi号码对应于一个核酸序列(蛋白质序列也有gi号码)。当序列改变时,gi号码也改变,但检索号码不变。
在本书出版时,将出现第三种标识符。合作数据库已同意将版本号加在不同版本的序列上(就象NID或gi)。格式是:检索号.版本号。例如:
******************
这表明序列第1版,检索号为AF010325,gi号为2245686。在本书写作时,还没有确定这个标识符应放在哪一行中,但肯定会在ACCESSION和NID行之后。很可能就选择在VERSION行(正如上面那样)。相关信息请参考最新的GenBank release note。这个标识符中的版本号码将随每次序列改变而加1,gi的更改也是如此(但不是每次加1,而是改变到下一个可能的整数)。这个标识符格式的检索号码将承担现在由检索号/gi号(在NID行)所承担的任务,它最终取代GBFF的NID行将一点也不令人奇怪。Accession行在可预见的将来不会被取消,因为它还有历史价值,也因为还存在一些由于历史原因而保留的二级号码。
*******************
KEYWORDS是另一个有趣的历史遗留物,并且不幸地在很多情况下被误用了。给一个记录加上关键词通常并不十分有效,因为在过去的年月中有许多作者选用了不在受控词表中的词,并且在整个数据库中用法也不一致。因此,NCBI不鼓励使用关键词,但在查询时加入关键词是可以的,特别是那些没有在其它记录中出现的过词,或以一种受控的方式来使用的词(例如:对于EST,STS,GSS,HTG记录)。这时,拒绝加入关键词只是NCBI/GenBank的策略。
*******************
SOURCE行中有生物的通用名或科学名称。有些情况下也有其它来源的信息。现在正在一致努力以保证来源特性中包含所有必须的信息(不同于现在的SOURCE行),并且所有关于分类的信息(SOURCE行和ORGANISMS行)可以从来源特性以及NCBI分类服务器中获得。对于系统族或关于分类的其它方面感兴趣的读者可以访问NCBI的分类主页。这一分类被所有核苷酸序列数据库以及蛋白质数据库Swiss-Prot所采用。
*******************
每个GenBank记录至少要有一篇参考文献。
*****************
在1998年末,又加入了一个新的行,以及其标识符PUBMED,允许指向PubMed数据库以及发表者在线全文电子版的链接。
*****************
最后一次引用通常出现于许多GenBank的记录中,为那些将要围绕这一序列开展工作的研究者提供科学依据。这其中通常包括第一作者完成此项工作的主要实验室,或作者的通讯地址。日期是记录被提交给数据库的日期,而不是这些数据第一次公开发表的日期,那将在LOCUS行中出现(见上面),如果这一记录没有被更新过的话。
GBFF头部的最后一部分是评论。这一部分包括关于整个记录的许多不同的注释和评论(也称之为“描述部分”)。基因中心喜欢在这一部分中加入自己的内容,以及致谢等。有许多GenBank记录没有这一部分,这是可选的。这里也可以包括电子邮件地址和URL,但在实践中NCBI并不鼓励这样(虽然象上面提到的一样有些基因组测序中心已经这样作了),对此简单的解释是电子邮件地址通常比建筑物的地址更容易被轻易更换。但DDBJ几年前就已经将电子邮件地址包含在了记录之中,这又一次体现了政策考虑上的微妙差别。

特性表编辑本段回目录

GBFF记录的中间部分,也是最重要的一部分,就是注释,它直接表达了记录的生物背景知识。也许有人争辩说生物背景在记录所引用的参考文献中有最好的表现,但不论怎样,记录中的一整套注释有助于快速地抽取相关生物信息,并允许提交者指出这一记录当时为什么会被提交到这个数据库中。这里对于注释的选择就十分关键了。特性表文档详细描述了合法的特性(允许使用的注释),以及这些特性的允许限制词。不幸的是,这里经常有一些非法的,推测性的或由计算得出的注释。如果一个注释是仅由计算得到的,它作为记录说明的可用性就大打折扣了。

来源编辑本段回目录

来源(source)是唯一一个必须在所有GenBank记录中出现的特性。所有的特性都有一系列合法的限定词,有些是强制性的(例如来源中的/organism(生物体))。所有的DNA序列记录都有出处,即使是合成序列这样极端的特例也一样。大多数情况下一个记录只能有一个来源特性,并带有/organism限定词。
***************
限定词organism包含属和种的科学名称,有些情况下还可以在亚种水平描述。对于来源,一系列限定词将包括了关于BioSource的所有材料,这可能包括图谱、染色体或组织、克隆标识以及其它库信息。在来源以及其它所有GenBank记录的特性中,作者都必须要注意避免加入冗余的信息。对于读者来说,对一切不能由计算证实的东西都必须抱一点怀疑态度。组织来源以及文库也只有和相关的发表文献对照才比较可靠(如果有文献的话),并且只有在这种情况下这类信息才在GenBank的所有记录中一致地使用。在以系统化的方式使用限定词的一批记录中,正象许多大的EST集一样,分类可以被证实(就是说,这一生物确实存在于NCBI维护的关于所有生物的数据库中)。此外如果限定词还在所有记录中一致地使用,对于研究者将是十分有益的。但不幸的是,许多限定词在数据库中的使用缺乏充分的一致性,这就使得它们实际上没有很大的价值。
隐含于BioSource以及生物体中的是DNA或RNA使用的基因编码,这将被用以将核苷酸翻译为蛋白质序列(如果记录中存在的话)。这一信息包含在CDS中。

CDS编辑本段回目录


CDS指示读者如何将两个序列连接在一起,或如何根据核苷酸序列以及基因编码得到氨基酸序列。GBFF以DNA为核心,通过DNA序列坐标系统映射所有特性,而不是从氨基酸的角度。正如下面GenBank Y11895的例子所显示的(这个例子来自一个提交到EMBL的记录)。
*********************
在分析这些数据时,我们必须从DNA坐标推导出氨基酸位置,并且我们对于所编码蛋白质的了解也将仅限于从对DNA特性的描述中获得。这一限制可被Sequin克服(见第14章)。这一例子也显示了数据库交叉索引(db_xref)的使用。这一受控限制词允许数据库将另一个外部数据库的序列(第一个标识符)与一个在本数据库中使用的标识符交叉索引。允许db_xref的数据库都是合作数据库所维护的。
NCBI给每个记录赋予一个gi(geninfo)标识符。这意味着翻译产物蛋白质序列(不是简单附属于DNA记录,如同在GenBank记录中显示的),也有自己的gi号码。一个特定的标识符当且仅当序列更改时才更改。蛋白质gi号码现在作为PID db_xref或蛋白质标识符出现。下面这个例子显示了两种情况:
/db_xref = “PID:e322087”
/db_xref = “PID:g2415691”
前缀e和g表示EMBL及GenBank。‘g’前缀后面的整数是NCBI赋予的gi(这里的gi没有字母,只有PID值)。这里可以有两个PID,因为每个数据库各自维护其标识符。在GenBank中,只有EMBL生成的记录有两个PID,其中一个带有‘e’前缀,另一个带有‘g’前缀。这一混乱将很快结束,因为1998年后gi号码的使用将被简化。对于核苷酸序列,还将有一个序列标识符,带有版本号成分,以及一个固定的序列标识符(或检索号)。
***********************
在过渡时期,所有的序列标识符需要同时存在,但PID将最终被取消。Protein_id(或核苷酸序列数据库生成的蛋白质检索号)将由3个字母加5位数字构成,后跟一个句号和另一个整数,显示这个蛋白质序列的版本。当序列更新时,这一数字也将增加,就象gi那样。这样如果旧版本存在的话用户将可以简单地通过版本号来查找以前版本的记录。氨基酸序列是核苷酸序列数据库最重要的副产品之一,所以已经有大量的努力来保证其正确性(如果对GenBank记录进行翻译,必须找到正确的相位,以指导对给定序列的翻译)。这些序列提供了蛋白质数据库的原始材料,也提供了最有效的发现新基因的方法。当注释可以被证实时,它们就有附加值,所以正确的标识符是十分重要的。产物名称或蛋白质名称有可能是主观的,并且经常是通过与其它未充分注释的序列的微弱相似性而赋予的,而且它们本身也常常没有被充分注释。所以用户必须意识到信息缺乏的恶性循环。当一个记录描述了一个单独基因或全长mRNA序列,并伴有已发表的文章时,往往可以由此获得充分的信息。这样的记录通常是一个研究组的工作成果,这个组对基因的细节已进行了一定的研究。幸运的是,已有许多这类记录在数据库中,构成了研究者应用这些数据的知识基础。

基因编辑本段回目录

最近才加入的基因特性实际上自数据库开始时就已经隐含地使用了,它以前经常作为一个基因限定词出现在一些其它特性中。将其作为一个单独的特性来显式地使用,极大地便利了根据这一特性来注释的其它数据成分的生成和确定过程。这个新特性也统一了生物学家对GenBank记录中基因特性的不同定义和使用方法。
虽然很明显不会所有的生物学家都同意关于基因的一个统一定义,但作为最简单的说明,基因代表了DNA的一个可以用一个名字标识的片,或经常在基因组测序计划中使用的数字(例如GenBank检索号U95973中的T19D16.1)。基因特性允许用户看到感兴趣的基因片段,并在某些情况下作出选择。

RNA编辑本段回目录


不同的结构RNA可以用来注释基因组序列中的RNA(例如mRNA、rRNA、tRNA)。虽然目前这些还没有象蛋白质序列那样分成单独的记录,但这些序列(尤其是mRNA)对我们对于基因组高级构成的理解是十分重要的。RNA有特别的意义,因为它们是可以在实验室中被观测的生物对象。因此,它们是有关基因组的极有价值的信息片段,并且经常是它们自身的mRNA记录。这与启动子不同,启动子没有什么特征,不均匀地分布在大量记录中,很难从生物角度定义,并且实际上对于GenBank记录没有什么用处。基因组记录中的RNA特性代表了一个生物分子存在的实验依据。

附件列表


→如果您认为本词条还有待完善,请 编辑词条

上一篇基因工程 下一篇结构数据库

词条内容仅供参考,如果您需要解决具体问题
(尤其在法律、医学等领域),建议您咨询相关领域专业人士。
4

收藏到:  

词条信息

已删除
此用户已删除
词条创建者

相关词条