生命经纬知识库 >>所属分类 >> 生物信息学技术   

标签: NCBI 数据模型

顶[0] 发表评论(838) 编辑词条

GenBank数据是以DNA为中心角度的数据报告,也就是以CDS特征为代表的一段编码蛋白质的DNA序列。限定符/translation="MLLYY"描述了将CDS特征翻译成的氨基酸顺序。其它的DNA特征(例如mat-肽)有时被GenBank数据应用来描述未命名蛋白质(部分由/translation描述)的切分产物,但这不是一种令人满意的解决方法。相反,大多数蛋白质序列数据库以蛋白质为中心角度,这样可能完全失掉其与编码基因之间的联系,或者只是间接的用序列号表示其联系(这并不提供准确的对基因突变分析有重要作用的密码子--氨基酸对应关系)。
NCBI数据模型直接构造了包含DNA和蛋白质序列的模型。翻译的过程是由两种序列间的关系决定而不是由一种对另一种的解释确定。和蛋白质相关的注解(例如肽切分产物)是由蛋白质序列特征直接注释。这样,用BLAST或其他序列搜索工具去分析由CDS特征得到蛋白质序列就变容易了,尽管返回基因时可能会丢失精确的中间联系。一组DNA序列和由它翻译的蛋白质被称为核酸—蛋白质组,它是NCBI为使用这些数据的中间数据。GenBank数据格式只是人类可读的一种特殊数据形式。它失去了有联系的序列集合,而倒退回比较熟悉的那种序列(以DNA为中心的视角)。Entrez的目标是更直接的反映数据的低层结构。由BLAST实现的从GenBank到蛋白质序列的翻译实际上是从蛋白质—核酸组得到蛋白质序列。
Part A:
LOCUS RNKOR1 1757bp DNA ROD 25-MA-1995
DEFINITION Rattus norvegicus kappa opioid receptor gene, exon 1 and 2.
ACCESSION U17993
NID g727256
KEYWORDS .
SEGMENT 1 of 3

LOCUS RNKOR2 658bp DNA ROD 25-MA-1995
DEFINITION Rattus norvegicus kappa opioid receptor gene, exon 3.
ACCESSION U17994
NID g727257
KEYWORDS .
SEGMENT 2 of 3

LOCUS RNKOR3 4048bp DNA ROD 25-MA-1995
DEFINITION Rattus norvegicus kappa opioid receptor gene, exon 4 and complete cds.
ACCESSION U17995
NID g727258
KEYWORDS .
SEGMENT 3 of 3
Part B:
LOCUS RNKOR 6463bp DNA ROD 25-MA-1995
DEFINITION Rattus norvegicus kappa opioid receptor gene.
ACCESSION ZZ123456
NID g2182225
KEYWORDS .
SOURCE Norway rat.
ORGANISM Rattus norvegicus
Eukauyotae; mitochondrial eukaryotes; Metazoa; Chordata;
Vertebrata; Eutheria; Rodentia; Sciurognathi; Myomorpha; Muridae;
Murinae; Rattus.
REFERENCE 1 (base 1 to 1757)
AUTHORS Yakovlev, A.G., Krueger, K.E. and Faden,A.I.
TITLE Structure and expression of a rat kappa opioid receptor gene
JOURNAL J. Biol. Chem.270, 641-6424(1995)
MEDLINE 95204422
PUBMED 7896774
REFERENCE 2 (bases 1 to 1757)
AUTHORS Yakovlev,A.G.
TITLE Direct Submission
JOURNAL Submitted(02-DEC_1994) Alexander G. Yakovlev, Georgetown
University School of Medicine, Neurology, 3900 Reservoir Rd.,
Washington, DC 20007, USA
FEATURES Location/Qualifiers
Source 1..1757
/organism=”Rattus norvegicus”
/strain=”Sprague-Dawley”
/sex=”maile”
CONTIG join(U17993:1..1757,gap(200),U17994:1..658,gap(),U17995:1..4048)
GenBank格式也隐藏了一些DNA序列的多序列性。例如一般意义上,一个基因的三个外显子是有顺序的,或是被侧面的非编码区或DNA内含子密集包围着,而内含子的整个长度是没有被测序的。这时候在GenBank的数据中会有三条记录,每一个对应一个外显子。没有一个特征能清楚地代表该编码区完整的序列顺序(三个外显子是有一定的顺序并被一定长度的未翻译的DNA序列隔断)。在GenBank格式中,这时会有SEGMENT行指出第一个记录是SEGMENT 1 of 3、第二个记录是SEGMENT 2 of 3、第三个记录是SEGMENT 3 of 3,但这仅告诉使用者这是一些没有确定顺序的片段。从整个GenBank角度来看,使用一种被称为LOCUS的算法将无序片段正确定位,组合在一起的片段使用相同的起始字母,以不同的数字结尾,例如RNKOR1,RNKOR2,RNKOR3。显然当LOCUS名字中包含其它与该序列不相关的干扰时,这种复杂的安排会遇到问题。况且还没有一个序列记录包含了全部的片段,也没有任何方法可以描述片段之间的距离。因为在EMBI序列数据库中根本没有分割片段的信息,所以任何从这种形式派生出来的记录都缺乏一些基本的信息。
NCBI数据模型定义了一种直接代表片段的格式,被成为“片段序列”。其包含的元素不是A,G,C,T,而是由怎样从其它序列构造的方法组成。
不同于GenBank格式,NCBI片段序列不要求片段间有间隙,事实上片段可以重叠。这使得片段序列适合用于代表诸如细菌基因的长序列,这恰恰就是Entrez基因分离细菌基因和其它诸如酵母等全染色体基因中所做的。NCBI软件工具包(Ostell,1996)包含了搜集数据的功能,包括序列和特征,自动将小的个体片段重新映射到全染色体上。这为图象视角、GenBank结构视角、FASTA视角或对离散数据进行全染色体分析提供了可能。这种根据命令在大范围区域内组装片段的能力已经在细菌基因中有所应用。在越来越大的区域进行拼接或者许多不同组拼接时组装命令将越来越重要,而且这种基于大规模单片段基础上处理的思想是完全不现实的。

目录

[显示全部]

ASN.1处理方法编辑本段回目录

NCBI数据模型经常被提到或和“NCBI ASN.1”或“ASN.1数据模型”混淆。Abstract Syntax Notation 1(ASN.1)是国际标准组织(ISO)的标准之一,是为描述结构数据和保障允许各计算机和各种软件之间交换结构和内容可靠翻译数据。说一个数据模型是用ASN.1写的就象一个计算机程序是用C或FORTRAN写的,指明了语言而不是指程序本身。从特殊的以DNA为中心的视角来看,熟悉的GenBank格式实际是的给人读的,而ASN.1是为计算机读的,并且有复杂的数据关系的描述。从这个简单的形式看,我们创造了一系列的人可读的格式如Entrez,GenBank和BLAST数据库。没有这些一般意义上的格式的存在,Entrez(见第5章)中相邻或连接关系的存在是不可能的。这一章是关于NCBI数据的结构和内容以及它作为生物药学数据库和工具的作用。关于这个任务和格式的ASN.1选择参见Ostell,1995。

定义方式编辑本段回目录

我们已经对NCBI数据模型所定义的序列举了几个例子,可以看出NCBI数据类型相比GenBank更加丰富、描述更加清晰。该模型的重点是它的细节问题,我们在下面将它进行展开。在这里我们简单地介绍一下该模型大致的理论和基本原理。
将数据输入计算机的目的有两个:重现和发现。重现是基本的能够找回它原来的本身。尽管这很重要,但如果能比找回本身得到更多的信息,也就是说能从信息中得到发现,这当然是更有价值的。从识别数据库中完全不相关的两条数据中发现它们之间的关系,或者对数据进行新角度的分析计算,科学家能从中得到发现。强调NCBI数据模型就是为了促进这种发现,从而定义了能描述信息间的联系和适合计算的数据模型。
对这种模型的第二个考虑是稳定性。NCBI是美国国家机构而不是由个人赞助的,因此成员对支持生物信息的努力有长远的考虑。NCBI提供了大规模的能支持科学研究几十年的信息系统。就所有关于生物药学方面的人士所知,在近几十年内,可能会有许多概念性和技术上的革命,所以NCBI必须适应这些新的观点,适应对软件和数据新的要求。所以我们尽量选用基本观察或数据点的主要数据元素,不考虑解释的核心和这些元素的命名(这些都很可能会发生变化)。
综合考虑上述原因,NCBI有四个核心元素:文献出处,DNA序列,蛋白质序列和三维结构。另外两个项目(分类和基因图)更具解释性,但是不管怎样,它们和组织和联系方面一样重要所以NCBI在这个领域内建立了一个相当大的基础。

出版物编辑本段回目录

出版物是科学研究的核心。科学信息从这里进行检查、评价、传播和永久的记录。出版物可以说是活的连接实际中不同结构或内容域的数据库的桥梁(例如某序列数据库中的一条记录和基因库中的某条记录可能出自同一篇文章)。它们被当作联系实际数据库的无价之宝(“我读了关于这条记录的文章,现在我想看看这个数据”)。
出版物也是功能的基本注释和实际数据库的上下文,也许是最好的注释。原因之一是实际数据库有能有效使用该数据库的结构,但缺乏足够的代表性能继续进行完整的生物的、实验的或某记录的历史上下文。另一方面,发表的文章仅仅受语言的限制,比实际数据库中的记录更包含了更完整和详细的描述信息。根据发表文章的内容,作者被科学同僚评价,而不是根据数据库中的记录。即使由于要追求更好的目的,科学家在继续工作,即使关于它们的知识在增长而数据库保持静态的。很少有繁忙的科学家会有兴趣去学习数据库系统,并能保持个人记录能及时更新。
NCBI有一系列进行中的项目能保证GenBank记录的高可靠性,提供便利和强大的记录更新工具,以及与科学家日常工作习惯相应的有用数据。不管怎样,与出版物保持可靠的联系能保证及时对数据库记录进行最丰富的注解。
一般来说,实际的数据库并没有对引用的形式和内容进行详细的分析,因此不同数据库之间,引用的质量、格式和内容等有很大的出入。我们认识到和出版物相互联系的重要性,认识到科学知识相对文献的动态性以及NCBI的优势(因为NCBI是国际健康组织的国际医药图书馆的一部分),我们认为仔细和完整的工作是一项有意义的工作,尽管很多专业人士告诫说这是一项艰巨的任务。以下是一些数据库的说明,可供对NCBI有兴趣的科学家和使用者参考,完整的说明需要另外一章。

作者编辑本段回目录

在不同的数据库中作者的姓名是有不同的格式的:只有姓、姓和首字母、姓-逗号-首字母、姓/名,名首字母和全称姓的作者、带有和不带有称谓(如Ph.D)或尾缀(Jr.,III)。一些文献数据库(如MEDLINE)可能仅用一个固定的数字代表作者。尽管这只是不便于读者阅读,但这对数据库系统产生了严重的问题,就象Entrez那样,只能提供按作者姓搜索的简单功能。由于这个原因,该说明提供了两种可选择的作者姓名代表格式,一个是简单的字符串形式,另一个是包含姓、名和其它等的结构域。当数据直接被送到NCBI或作者姓名有固定格式的其它数据库(如MEDLINE)时使用结构形式。当该形式不能破译是则仍然被看成为字符串形式,但这时复现受到限制,但至少还是能用其他的方法复现出一些数据的。
即使是结构形式的作者姓名也必须支持多样性,这是因为一些文献只给首字母,而另一些只给名和中间名。这时要强调两点:第一点,NCBI数据格式是为了适合于我们直接阅读以及能和现存数据相一致;第二点,在一个特殊的资源被转化时软件开发者必须了解该格式的意义。一般说来,NCBI尽量使数据形式满足统一格式,但可能也会使其它的性能下降。
作者的社会关系(如作者的工作地点等)就更加复杂了。至于作者姓名对于支持结构形式和字符串形式也还有一些问题。然而,即使对那些有统一格式作者姓名的文献来源,也不能将社会关系分解成结构形式。而且,也有很多作者是属于相同的机构或一个作者参与了几个机构。NCBI数据模型支持以上情况。尽管在写本文时,MEDLINE或GenBank只支持前一种格式,而两种格式都出现在出版物上。

文章编辑本段回目录

最常见的生物科学的文献标题是期刊文献,所以对于生物数据库的引用格式缺省为期刊文献。然而,文章也可能出现在书、手稿以及电子期刊上,数据模型应该能引用书、期刊或手稿。文章出处占有一个域,其它域用于存储其它的能唯一确定其在书、期刊或手稿中的有用信息,如文章的作者(对应与书的作者或编辑者)、文章的标题、页码等等。
那些能辨识文章出处的域以及对数据库使用者有用的能识别相同文章的域是完全不同的。NCBI出处比对服务(见本章末)使用出处域来区分定位文献的出处,这个比对过程包含能同时配合相同的期刊名、年份、文章的首页以及文章作者的姓。其他的信息(例如文章标题、页数、全部页数、作者名单)仅用于观看而对输入来源不起作用。作为出处的数据模型要容许最小信息集能作用,和MEDLINE比对后,被从MEDLINE中得到的完整的域所替代,从而满足科学研究精确的需要。

专利权编辑本段回目录

随着专利的出现,我们需要将专利而不是文章当作文献条目进行引用。NCBI支持由美国专利局合作的完整的专利引用顺序。实际上,专利说明书倾向于限制科学的作用,理由如下:
专利是合法的文献而不是科学的文献,它的目的是支持专利的声明和存在,而不是完全描述生物的过程。这是为在律师办公室的情况,不是为做研究的科学家。所以存在的说明书只是解释专利中的一些方面,而不是文章的核心。只要不是基因的专利,组织信息、生物特征位点等等根本不可能出现。不管怎样大多数出现在专利说明书中的序列也以一些更有用的格式(对科学家)出现在公共数据库中。
从NCBI的观点,GenBank列出专利说明中的序列的目的是能复现序列本身(通过相似性比较),用以定位和某序列相关的专利。这种情况下要实现合法的确定,我们必须检查专利的全文。要评价生物序列,人们必须定位专利中没有包含的信息。这里的联系是序列和专利号之间的联系。其它在专利定位中使用的域是诸如专利名称和发明者的姓名等。
引用电子数据
和GenBank类似,这是一类相对新的包含了数据提交数据库的方法的方案,这也是一种形式但又和一般期刊不完全相同的出版物。在一般情况下,文章的出版需要经过相当长的时间,而且从来没有数据库的积累会赶在发表之前,因此数据的积累会有一定的间隔。提交的数据由于是一种形式的出版物可能包含了在本记录中工作过的科学家的姓名,这和真正出版物列出的名单可能不一致。大多数情况下提交数据给数据库的科学家是提交数据的作者,但也不完全是,特别是大序列中心。最终NCBI提出了也引用修改的记录,在记录的修改栏里做简单的注释,注释记录的变化,所有的提交数据都在记录中保存留下编辑的历史记录。

MEDLINE和PubMed UIDs编辑本段回目录

一旦文章的出处和MEDLINE中的匹配,最简单和最可靠的方法去找到该篇文章的方法是MEDLINE唯一辨识器(MUID),这是一个简单的整数。NCBI提供了许多服务去使用MUID来恢复出处和从MUID获得摘要、将数据和文章联系起来或者提供WWW的网上连接。
最近根据和MEDLINE以及许多出版者的协定,NCBI提出了PubMed。和直接由出版者提供类似,PubMed包含了所有的MEDLINE,而且PubMed还包含了最近出版的文章,还包括了一些由于它们的主题原因将永远不能在MEDLINE中出现的文章。这时,NCBI提出了一种新的文章辨识器叫PubMed辨识器(PMID)。出现在MEDLINE中的文章将同时有PMID和MUID。只出现在PubMed中的文章则只有PMID。PMID和MUID提供了相同的目的是提供一种简单可靠的和出处的连接或一种方法建立网上热连接。NCBI现在正将所有的服务转向使用PMID。
NCBI数据模型存储了大部分的出处,即所谓的出版等价物,是由一系列的出处等价物组成,包括可靠的辨识器(PMID或MUID)和出处本身。出处格式的存在使得不用从数据库中特别恢复,因为辨识器提供了一个可靠的记录的出处的联系或是说索引。

Seq-IdS:序列标识编辑本段回目录

NCBI数据模型定义了一类对象,被称为序列辨识器(SeqId)。需要这类对象是因为NCBI合成了许多用不同方法命名的数据源并且这些名字具有不同的含义。例如一个简单的情况:PIR,SWISS-PROT和核甘酸序列数据库都使用有类似格式的序列号,光说“A10234”是不能唯一地从所有这些数据库集合中找到序列记录的。我们必须区别从SWISS-PORT和从PIR中的A10234。(DDBJ/EMBL/GenBank核酸数据库共用一套序列号,所以从EMBL中的A12345和从GenBank中的A12345是相同的。)这些形式也可能是不相同的,因此当序列数据库处理仅考虑包含一序列的一条记录时,PDB记录只有一个简单的结构,该结构有可能包含不只一个序列。所以PDB的SeqId包含了分子名称和链状ID去标识一个唯一的序列。下面一部分就叙述通常使用的几种SeqId的格式以及使用。

LOCUS名称编辑本段回目录

LOCUS出现在GenBank中的LOCUS行以及DDBJ记录(EMBLE的ID行)是GenBank中最初的辨识器。就象基因LOCUS名称一样,它兼有唯一辨识器、功能记忆以及序列的组织源等功能。由于LOCUS行是有固定的格式,LOCUS的名称限制在少于或等于10个数字或大写字母。在GenBank中,名字的前三个字母是组织码,剩下的字母是基因码(如:HUMHBB代表人体 -球蛋白区域)。然而,当该区域的功能和原先设想的功能不同时,LOCUS中的基因码会发生变化。这种不稳定性显然是复现中的一个问题。另一个问题是GenBank中的序列和组织随时间呈几何指数增长,这使得发明或修改记忆名称是不可能的。基于以上几点使得LOCUS名称在GenBank中不再作为有用的名称,尽管它将永远存在在数据的首行,这只是为了和以往的数据格式兼容。

序列号编辑本段回目录

由于使用LOCUS(或ID)名称作为对核酸序列唯一辨识器的困难,国际核酸序列数据库合作者们(DDBJ/EMBL/GenBank)引入了序列号。开始时它不具有生物意义是为了保证其相对的稳定性。它是由一个大写字母和五个数字组成。(新的序列号是由两个大写字母和六个数字组成。)首字母是为了分配到不同的数据库以便序列号对于不同的数据库是唯一的。
序列号是对LOCUS/ID号的改进,但实际使用中,问题和不足是显然的。例如,当序列对于时间是稳定时,许多使用者发现用相同的序列号复现出的序列并不总是相同的。这是因为序列号标明了整个数据库的记录,一旦记录被修改了(或者说从开始部分插入了1000bp)的时候,序列号不变(只是相同记录的升级版)。如果我们分析起始序列和记录序列U00001的第100个位置假设是与蛋白质相关的位点,升级后一个完全不同的序列将在第100个位置上。
序列号出现在GenBank的ACCESSION行上。该行的第一个序列号称为基本序列号,它是复现该记录的关键,大部分记录只有这个序列号。第二级序列号是为了给该记录提供历史信息。例如如果U00001和U00002是同一个记录的不同版本,则U00002将成为一个新记录的基本序列号,U00001是二级序列号。在实际的标准中U00001记录将从GenBank中删除因为旧的记录已经过时,二级序列号将取代旧的成为用户需要复现的记录。这时应该标注二级序列号不是指同一对象,所以用户应仔细检查它们的注释。(数据库的不同,甚至是同一数据库的不同时间)使用二级序列号也有自己的问题,这是因为没有足够的信息去确定怎样发生和为什么会发生。但不管怎样,序列号仍然是DDBJ/EMBL/GenBank记录恢复中最可控最稳定的方法。

Gi号编辑本段回目录

1992年NCBI开始对所有Entrez中的序列使用基因信息号(gi),其中包含从DDBJ/EMBL/GenBank中的核酸序列、根据CDS特征翻译的蛋白质序列以及从SWISS-PROT、PIR、PRE、PDB、专利以及其它得到的蛋白质序列等。Gi是由原数据库提供的另外的SeqId。尽管由于原数据库的不同SeqId的形式和意义不同,但gi在意义和形式上对不同源数据库是相同的。
在形式上,它只是简单的整数(所以有时被称为GI号)。它只是一些特定序列的辨识器。假定一个序列加入GenBank,给定序列号U00001。当该序列在NCBI所内部处理时,它加入所谓的ID数据库。ID确认以前从未见过U00001,就给它一个gi号54。当提交器通过改变出处修改记录时,U00001又加入ID。ID认出该记录出现过,恢复原先的U00001和新记录进行比较,如果完全相同,则给该记录gi号54;如果不相同,即使只有一对碱基不同,则给新gi号88。然而因为原数据库的意义,新序列仍保持序列号U00001。这时ID标识旧记录(gi54)的替换时间,并将它加入历史指示它被gi88的记录替代。ID也加入历史gi88指出它替代了gi54。
Gi号有三种主要功能:
1. 提供了从多源数据库序列间的简单标志;
2. 提供了指示特别序列的标志。任何分析gi54存储分析的人可以肯定只要U00001有gi54,它就是有效的;
3. 它是稳定且可恢复的。NCBI保持每个gi号的最新版本。由于历史在记录中存在,任何发现gi54不再是GenBank的一部分的人仍然可以通过NCBI的ID复现该记录,通过查看历史可以看到它被gi88替代。检查gi54和gi88可以确定它们的关系,研究人员可以映射以前的分析到gi88或者重新分析数据。由于gi54在ID中总是存在的,这使得我们可以随时分析时局而不仅限于GenBank发行时间。
基于上述原因,从计算Entrez序列邻居到确定新序列的处理或BLAST数据库的产生所有NCBI的内部处理序列都是基于gi号。

NID/PIDs编辑本段回目录

GenBank中的NID和PID指示了核酸的gi号和记录的蛋白质序列。补充这个是使希望能在一个平台上计算序列的科学家能利用稳定的gi号去追踪序列。正象前面提到的,使用gi号而不是用序列号将保持使用有效,即使记录的序列以后发生变化(例如,5’端)。
在写本文时,又出现了一种新的SeqId(序列版本,见下文),它是被用于选择的序列辨识器。一旦这种转变完成,可能NID和PID号将不再出现在数据格式中,尽管使用gi号的分析将继续有效。而且,初始数据将出现在NCBI准备与GenBank数据平行的ASN.1文件中。

序列版本组合辨识器编辑本段回目录

最近,国际核酸序列数据库联合会(DDBJ,EMBL和GenBank)同意引入一种更好的辨识器。这种辨识器是组合了序列(标明特定的序列记录)和版本号(根据序列本身变化)。这种SeqId被期望成为理想的引用序列的方法。
使用者将仍能够仅仅基于序列号就能复现记录而不需要特殊的版本号。这种情况下,将得到该记录的最新版本,这也是Entrez和其它复现程序现在所作的工作。
分析数据库数据的科学家(例如将所有脱水酒精序列用一种特定分类方法中分离)和希望他们的结论保持有效的科学家希望能参考序列号和版本号。某序列的子序列(例如在研究基因的规则的5’延长端)被调整后,将导致版本号的增加。由于同时引用序列号和版本号,使得复现出同一记录,原始分析将保持有效。
同时引用序列号和版本号将使马虎的使用者认识到在分析作完后序列可能已经发生了变化。而且根据版本号可以轻易的知道一个序列被修改的次数。由于序列版本辨识器的优先权,现已存在的NIDs和PIDs(简单使用gi号)将被去除。
蛋白质序列的序列号
联合会也同意给蛋白质序列记录分配序列版本号。以前,除了使用gi号,很难可靠地引用给定编码区翻译后的产品。这限制了BLAST结果的使用。例如,这些序列将和提交给蛋白质数据库的蛋白质序列有相同的状态,并且它们有和对应核酸序列优先的连接权。
一般的SeqId
一般的SeqId是指被基因中心和其他组织当作标识序列的一种辩识基因所使用的。其中一些序列可能永远也不会出现在公共数据库中,或者是最终被提交的初级数据。例如,在Entrez基因分离的人体染色体的记录包含了除序列组成的多种物理和基因映射关系。物理映射是由不同组织提供的,是用一般的SeqId标识组织的。
局部的SeqId
局部的序列辨识器最突出地被使用在数据提交的工具Sequin中(见第14章)。每个序列仅当完整的被提交公共数据库处理后,才能最终得到一个序列号和一个gi号。提交过程中,Sequin分配一个局部辨识器给每个序列。就象许多NCBI提供的软件工具一样要求序列辨识器,局部的ID允许使用这些工具而不需要先提交到公共数据库。

BIOSEQ:生物序列编辑本段回目录

Bioseq即生物序列是NCBI数据模型的中心元素。它包括一个简单的连续的核酸分子或蛋白质分子,它定义了一个线性完整的协调系统。生物序列必须至少有一个序列辨识器(SeqId)。它包含了分子(DNA,RNA和蛋白质)的物理类型的信息,也有一些注释信息(例如指示特定生物序列的特定区域的生物特征)。它还有描述信息(例如该分子是从某个组织中获得的,这描述了整个生物序列)。
然而,生物序列不需要分子的完整序列。它可能是一个分开的序列,例如外显子序列,而不是所有内含子序列。或者它可能是只有一点标识的基因或物理映射。

序列是相同的编辑本段回目录

即使实际序列没有完全确定,所有生物序列有一个整数值的完整协调系统。所以对物理映射或对高分割基因的外显子来说,标识和外显子之间的距离只有从一群胶体中得到。所以当一个完整的序列染色体的协调关系已经精确了解后,那些基因和物理映射是最佳的推测,即和实际关系的错误概率最小。
不管怎样,任何生物信息都能被注释以相同的信息。例如一个基因特征可以被放在DNA序列的一个区域内,或者是物理映射的某个位置。该映射和序列可以根据共同的基因特征归为一类。这大大简化了能展示这些表面上不相关的数据的软件的编写任务。

序列是不相同的编辑本段回目录

尽管相同的协调系统有很多优点,不同的生物序列类所代表的方式不同。最一般的类简单介绍如下。
实际生物序列
在实际生物序列中我们知道分子类型,可能是它的长度和拓扑结构(例如线性,环状),但不是实际的序列。它可以代表基因分子(只有外显子序列已经确定)的内含子。长度可能只能从一群胶体的数量得到。
原始生物序列
这是大多数人想的序列,一串简单连续的碱基和残基是已知的。因此长度是已知的,序列中它应该和碱基或残基的数量配合。
离散的生物序列
离散的生物序列不包含原始生物序列,但其他生物序列的辨识器。这可以被用于代表只有外显子已知的基因序列。离散生物序列中的部分将是代表外显子的原生物序列和代表内含子的实生物序列。
离散生物序列也被用于NCBI来代表整个染色体。这就是Entrez基因分离的方法。这时,所有的部分都可能是原生物序列(许多情况的记录都已经存在于GenBank中)。可能在连接部分有重叠。
Delta生物序列
Delta生物序列是用于代表从不同的基因序列中心得到的未完高产量基因序列(HTGS)。即使有未知的生物序列子区域存在,使用Delta序列而不是离散序列是指对整个序列只需一个序列辨识器。也就是说即使数据库中存在早期的版本,Delta序列保持着相同的序列号。
映射生物序列
映射生物序列用于代表遗传和物理的映射关系,和实生物序列类似都包含有分子结构可能是拓扑结构以及真实分子长度粗糙估计的长度信息。这个信息只提供协调系统以每个生物序列的属性。对一个遗传映射给定协调系统我们可以根据遗传证据估计基因的位置。和原生物序列的数据是碱基和残基类似,作用基因特征表是映射生物序列的主要数据。
BIOSEQSETS:序列集合
生物序列经常储存在相关序列的上下文中。例如核酸序列和它编码的蛋白质序列自然属于一类。NCBI数据模型为这个目的提供了序列集合。
序列集合有一系列描述。将生物序列进行压缩时,需要对集合中每个序列进行描述。将出版物和生物原信息结合在一起是比较方便的安排,这些生物原信息是期望对所有序列的但经常在序列集合中出现相同。例如,DNA和蛋白质序列都是从同一组织中获得的,所以该描述信息应该用于该集合,同样也适用于出版物。
最一般的序列集合如下。
核酸--蛋白质集合
核酸-蛋白质集合包含核酸和一个或多个蛋白质,它是最经常由SequIn数据提交产生的集合。序列的组成是通过描述从核酸到蛋白质的翻译过程的编码区(CDS)的特征来联系的。传统的核酸和蛋白质数据库中这些记录可能用交叉参考来指明这种联系。核酸-蛋白质集合将二者放在一起使得这种联系更加清楚。它也允许用于所有序列的描述信息的同时存在(例如组织或出处)。
数量、种类的研究
序列提交的一个主要的类是以人口或种类研究的形式出现。这些研究包括同种类(数量研究)或不同种类(种类研究)一定数量的个体相同基因的比对。序列比对可能从以下的序列比对中得到。若基因编码了某个蛋白质,则数量或种类的序列集合可能也是一个核酸-蛋白质集合。
其它的生物序列集合
Seg集合包含了一个离散的生物序列和一个部分生物集合,反过来部分生物集合有包含了被离散生物序列引用的原生物序列(这可能组成了核酸-蛋白质集合的核酸部分)。
Equiv生物序列集合被用于Entrez基因分离,以维持生物序列的多平衡。例如,人体染色体有一个或多个不同种类的遗传、物理映射。不同生物序列之间的比对是基于对一般人员的注释。

序列的注释属性编辑本段回目录

序列注释是对序列注释的一个自包含包裹,或是指向特定序列的特定位置的信息。它可能包含一个特征表,一类序列比对或一类序列的图表。
多序列注释可以放在生物序列或生物序列集合中。每个生物注释可以有特殊的属性。例如PowerBLAST(Zhang and Madden,1997)创造了包含序列比对的序列注释,每个序列注释是基于使用的BLAST程序(例如BLASTN,BLASTX)命名。个体块的比对在Enrez和Sequin中可以看到。
由于序列注释的组成有对序列的特定参考,因此序列注释可以单独存在或和其他科学家互换;它不需要存在于具体的序列记录上。(另一方面,描述的范围依靠于包裹的位置。)因此关于生物序列的信息可以创造,交换以及独立于生物序列的比较。这是序列注释和NCBI数据模型的一个重要特性。
序列特征
序列特征(Seq-feat)是一块通过一或两个序列位置(Seq-locs)清楚附在生物序列区域的结构数据。序列数据自己本身是可以包含一般的信息。例如,它有能指示一些特征的标志。这些特征包括是否是部分(超过了生物序列末尾)、是否有一个生物的例外(解释为什么基因序列的密码子没有按预期的翻译成氨基酸的编辑RNA)、是否该特征是由实验决定的(例如,信使RNA隔离于假定的编码区)。
一个特征经常有位置。Seq-loc指示了作用蛋白质序列的位置。编码区经常以ATG开始,以终止子结束。如果分布位点是在一个基因序列上,而且信使RNA有连接出现,则位点可以有多于一个中间物。(为防止其它连接产生了分离的编码区特征,对每个离散的分子种类有一个多中介Seq-loc)
特征可以是有选择的产生作用。对一个编码区Seq-loc的产物指向相应的蛋白质序列。这是使数据模型能单独地保持核酸和蛋白质序列的连接,而且有每个序列对分子适当的注释。基因序列中信使RNA的特征可能含有反映后翻译RNA的信使RNA序列。该特征包含有唯一对应该特征的信息。例如CDS特征有遗传编码区和阅读框架,同时信使RNA特征有翻译氨基酸的信息。
折衷设计完全调整了特征要求的组成。如果一个特殊的特征需要一个特定的域而其它域不会受到影响。一种新的特征类型即使一个复杂的特征类型可以被加入,其它特征不受影响。用于显示特征在序列上位置的软件只需要考虑对通用特征的位置。
尽管DDBJ/EMBL/GenBank特征表允许很多特征(见第2章),NCBI数据模型对待一些特殊特征和其他特征相同。特别一些特征直接对分子生物学的中心原理建模,可以被用于连接记录和用计算机揭示新信息。这些特征将在下面进行讨论。
基因
一个基因有自己的特征。过去它仅仅是其他特征的修饰。基因的特征指明了含有可测表示的基因的位置即核酸序列可遗传区域。这中表示可能能从许多基因的组成(包括编码区,推动子,增强子和终止子等)里获得。基因的特征是指大约能覆盖被大家所认为是基因的核酸区。当然这种模糊的概念有简单性,它对高层次基因视角(如遗传映射)适合的相当好。在大规模的基因测序中,当生物学家只想知道“xyz”基因而不是整个染色体时,模糊概念很有实际用途。基因特征对基因数据库(能得到基因更详细的信息)可能也有交叉参考作用。
RNA
RNA特征可以描述编码中介(如信使RNA)和结构RNA(如tRNA,rRNA)。信使RNA的位置和响应编码区(CDS)完全确定了5’和3’未翻译区,外显子和内含子。
编码区(CDS)
NCBI数据模型的编码区(CDS)特征可以被想成通过遗传编码从核酸到蛋白质翻译的命令。(见图6.4)编码区象是连接两种序列的联系。
几种情况可能对经典的基因对蛋白质的共线性产生例外。例如翻译故障(核糖体的错位)会导致特征位置Seq-loc的重叠。
除非清楚给定了编码区特征,否则编码区被认为是普遍的。在序列中当遗传编码没有特定位置跟随时,如第一位置上是变起始子,制止子tRNA饶过终止子,或加入selenocysteine时,编码区特征容许这些非正常情况被指出。
蛋白质
蛋白质特征以蛋白质或蛋白质分解产物命名。一个简单的蛋白质序列可能有许多蛋白质特征。可能有一种特征描述原肽,翻译的最初产物。(这个特征的名字是用于产生蛋白质的CDS区域的描述。)可能有一个短一些的蛋白质特征用于描述成熟的肽,或者为防止病毒性的多蛋白质,采用几个成熟肽特征。通过膜组成蛋白质的含有信号的肽可能被指出。
其他
几种其他的特征不常用。区域特征提供了一种简单的方法命名染色体区域(例如“主要组织互容局面”)或多肽的域。特征纽带指示了蛋白质两个残基(如二硫键)之间的联系。位置特征指示了一个已知位置(如活跃的,一起的glycosylation,methylation)。
最后,许多特征存在于合法特征表中,包含了生物学的许多方面。然而在用于记录之间的联系和用于计算得到发现等方面,它们比以上介绍的特征的用处少。

序列比对编辑本段回目录


序列比对是映射一个生物序列的坐标多一个或几个其他的生物序列。例如,从两个组织得到的相同基因可能从同一祖先分化成不同的组织,个人特殊的基(或三联体码)可能会加入或从序列中丧失。比对中在适当的位置引入缝隙能重现原始的相同系统。
可以用软件算法进行比对(例如BLAST运用了包含一个或多个序列比对的序列注释)或者由科学家(提供序列人群的研究的人)人工进行。序列比对目的是期望能抓住过程的结果而不是过程本身。
所有形式的序列比对是由多个部分组成。每部分是仅包含序列或者是比对中对任意序列适用的缝隙的比对区域(不是序列和缝隙的混合区域)。以下的三维比对(三序列间的多重比对)作用于五个部分。
序列不是离散的
注意到刚显示的三个生物序列的实际序列不包含冲突。基因码的一个基本属性是它是共maless(Crick et al,1961)也就是说没有中间能区分密码子或在正常框架内翻译。基因是一列连续的核酸。我们提醒读者序列也是无间隙的。间隙只是比对报告中显示出的,由比对数据产生的;它们只供比较使用。
对角线集合
序列比对类型中,对角每部分是独立于下一个部分的,而且没有联系一部分和其他部分的有说服力的说明。这是由点阵显示的一种关系(见第7章和图7.4)。方阵中的一系列对角线说明了序列间未分离区域的同源性。然而,对角线可能重叠数次(例如序列的重复区域)或者是矩阵的区域可能根本没有对角线。
比对类
一个部分的局部的比对定义了序列间的联系,因为实际只有长度被包含在比对中。然而,这并不意味着一部分和下一个之间存在着有序的联系。这种比对对一般的蛋白质搜索是有用的,因为蛋白质的几个有不同功能的区域可能只存在于一条多肽上。
序列图表
图表是能进行序列注释的第三种注释。序列图表定义了一些连续的值超过一个限定间隔的集合。它可被用于显示象G+C含量、表层蛋白、亲疏水性或覆盖序列长度的基精确性等属性。
序列的描述
序列的描述是指形容一个生物序列(或生物序列集)并将它放在生物或文献背景下。序列描述应用于整个生物序列或对生物序列集合内的每个序列描述相关的序列。
描述器被引入NCBI数据模型以减少记录的冗余信息。例如核酸序列的 蛋白质产品应从象核酸自己的相同生物源(器官,组织)得到。许多情况下描述DNA序列的出版物也讨论了翻译后的蛋白质。在核酸-蛋白质集合这一层次,将这些条目用描述子替代,每条目只需一份拷贝就能恰当地描述所有的序列。
生物源
生物源包含了源生物(学名和俗称)的信息,在NCBI中它的系统包含了分类和它的核酸和(如果恰当的话)线粒体的基因码。它也包含了细胞中(例如核酸基因或线粒体)序列位置的信息和其它的调整(例如变性、克隆、分离、染色体映射位点)。
一个基因的序列记录和它的蛋白质产品在核酸-蛋白质集合层将典型的含有一个简单的生物源描述器。然而种群或后基因组研究将对每个组分有生物源描述器。(这个组分可能是核酸生物序列或它们自己本身是核酸-蛋白质集合。)种群研究中的生物源将有相同的组织名称,而且通常含有各不相同的调整信息,例如拉伸或克隆名称。
分子信息
分子信息描述器指出了分子类型[例如,基因,信使RNA(通常和cDNA区别),rRNA,tRNA或肽链],排序的技术(例如标准,EST,部分肽链序列的概念翻译方法)和序列补全(例如补全,缺左(5’或氨基)端,或两端都缺)。每个核酸和每个蛋白质都应有自己的分子信息描述器。正常情况下,这个描述器将不会出现在核酸-蛋白质集合层。(它可能在序列集合,由于所有部分的离散生物序列应该是同一类型。)

模型的使用编辑本段回目录

为建数据库和产生报告使用NCBI数据模型会有一些后果。

GenBank格式
GenBank格式是以DNA为中心的角度看序列记录。(GenPept视角代表等价的以蛋白质为中心的视角。)为了维持对这些历史角度的适应性,一些映射将在不同序列的特征或在相同序列的重叠特征间。
GenBank格式中,编码区特征的蛋白质产品被当作翻译限定器,而不是当作可以有自己特征的序列。生物序列的产品中最大的蛋白质特征被用于产品限定器。一些其它的在NCBI数据模型的蛋白质生物序列中注释的特征,例如成熟的肽链或信号肽链被映射到GenBank格式中相应的DNA系统(通过CDS中介)。
基因特征用序列给区域命名,特别是覆盖了所有已知的能影响基因显性的情况。这区域的其它特征将从基因特征中产生基因限定器。这样就没有必要对其它特征单独注释基因限定器。
FASTA格式
FASTA格式包含了一个界限行和序列特征,可能被用于不同分析程序的输入。界限行从一个右>符号开始,通常后面跟有以可分析形式出现的序列辨识器。例如:
界限行的剩余部分是序列的题目,它可以由软件根据特征和其它核酸-蛋白质集合的信息产生。
对离散的生物序列,每个原始生物序列部分都能独立地描述,之间有少许分割。(一般的BLAST搜索服务使用这种方法产生搜索数据库,使得成功的结果能映射到个人GenBank记录中。)但离散的生物序列也可以被看成一个简单的序列,这是原始组成将被看成是一连续的。(折衷格式是用于产生Entrez的BLAST邻居。见第5章。)
BLAST
基本局部比对搜索工具(BLAST,Altschul et al.,1990)是一种普遍的查明序列相似形的方法。BLAST程序使用一种由用户提供的查询序列,从整个NCBI序列数据库中搜索。每个搜索结果是序列比对,这些是和序列注释结合。(详细的操作BLAST搜索可以在第7章中找到。)
数据注释的结果可以被用于产生传统的BLAST报告,但在从诸如Entrez和Sequin等软件工具的视角看它更加有用。这些程序的视角是用于显示比对信息。例如图表视角只显示了对搜索序列的插入和删除的关系,当视角抓住了个人序列,显示比对区域中碱基和残基的不匹配情况。序列视角在个人碱基或残基层显示了比对的详细内容。这种能从概述到详细资料的放大功能使它更容易地从一个简单的报告中看到序列间的联系。
最后,序列注释或任何一种序列比对可以被该成其它提炼工具(例如联合或插入比对程序)。结果可以被返回显示程序。
Entrez
Entrez序列复现程序(Schuler et al.,1996)被设计成使用用NCBI数据程序捕获的联系。例如,序列记录的出版可能包含MEDLINE UID或PubMed UID。Entrez可以复现的是通向PubMed文章的连接。编码区域特征的序列位置指向Entrez复现的蛋白质结果。数据模型间的联系允许在按按钮的同时复现有联系的记录。Entrez中基因分离更加利用了数据模型,能显示大规模基因的特定区域,就象当人激活ProtTable钮。
Sequin
Sequin是提供原始数据和其它生物信息和为提供DDBJ/EMBL/GenBank数据库(见第14章)合成记录(通常是生物序列集合)的一种工具。它完全使用了NCBI数据库模型,利用冗余信息使条目合理。例如,由于使用者提供了核酸和蛋白质序列,Sequin可能确定编码区的位置(一个或多个中间的核酸,通过基因码产生了蛋白质产品)。比较编码区的翻译和提供的蛋白质,报告不协调。它能确定每个生物序列有生物源信息应用。这个要求可由替代一个简单的生物源描述器核酸和他的蛋白质产物得到满足。
Swquin的视角是活跃的,由于在已存条目双击(在GenBank平台段落或序列上图表显示特征)将推进该条目的编辑(例如特征,描述器或序列数据)。

附件列表


→如果您认为本词条还有待完善,请 编辑词条

上一篇NCBI数据库/ENTREZ系统的信息检索 下一篇序列比对

词条内容仅供参考,如果您需要解决具体问题
(尤其在法律、医学等领域),建议您咨询相关领域专业人士。
0

收藏到:  

词条信息

已删除
此用户已删除
词条创建者

相关词条