生命经纬知识库 >> >> 历史版本

最新历史版本 : 返回词条

要在分子生物学领域进行计算分析,从公共数据库(DDBJ/EMBL/GenBank)中获得DNA序列记录是其必需条件。借助于和一个已了解其生物学功能而被分离出来并测序的基因比较相似性的方法,我们可以尝试确定某疾病基因的功能,这种方法要求序列记录有精确并且富于信息的生物学注解。对于将其作为BLAST 或Entrez的检索结果来研究的科学家来说,编码的蛋白质产物的名称或功能、基因座位的名称以及和该序列最初的公布之间的联系(它因何被测序?)构成了序列记录的直接的确切涵义。
目录

[显示全部]

提交到哪儿?回目录


过去研究者将数据提交到哪一个特定的数据库依赖于他们想要发表文章的期刊,虽然现在一些期刊仍然不合适的指出一个偏爱的数据库,但这不再是正确的了,研究者应该提交到最方便的数据库。这可能是地理上最近的数据库(例如,如果需要一次电话会谈的话);也可能是经常提交的数据库;或者可能仅是因为在那里提交可能得到最多的注意。这三个数据库都有知识丰富的人员来帮助提交者完成整个提交过程。在通常的情况下,一个工作日内将会反馈回来一个加入号码,而记录的完成将需要5�10天的时间,其实际长短将依赖于那个工作周的繁忙程度和提交的序列的状态。
目前,假设所有的序列记录提交都通过电子方式:例如通过互联网,通过电子邮件,或者(最起码)通过常规方式邮寄一张计算机磁盘。供电子方式提交的URLs和E_mail地址列于本章末尾, 这两种提交方式取代了早期使用的授权软件的方法,该方法现在已经过时了。不过通过授权软件来提交仍然可被接受(在本文出版时),但是使用授权软件的提交者应该注意其局限性和可以选择更好的方法。

提交什么内容?回目录


这三个数据库都需要同样的最终结果:充分注解的、具生物学意义的、便于计算的良好记录,该记录允许其他科学家利用提交该记录的生物学家已获得的工作成果,并且提供了与蛋白质、参考文献和基因组数据库(参见第5章)的联系。这些数据库是所有通过实验获得的序列的宝库,因此最新测序的mRNA或基因区域的序列可以提交到某个数据库,其工作人员将协助提交者提供足够的信息以使该序列对其他研究者有使用价值。一套丰富的生物特征和其他注解是可得到的,但其中重要的部分无疑是那些可用于分析的内容。这些部分包括核苷酸和蛋白质序列:CDS(编码序列,又称编码区)、基因、mRNA特征(如:表现分子生物学中心法则的特征);序列得以确定的生物;以及关于参考文献的引用,这些引用将此序列连接到有关的信息领域并将给出证明该序列存在的实验细节。
DNA/RNA
提交的过程相当简单,但必须小心谨慎,才能提供准确(无错误和无载体污染)和生物学上尽量良好的信息,以保证其得到科学界的最充分利用。无论提交形式如何,在开始提交以前,都要解决以下几个问题。
序列的性质
该序列来源于基因组还是mRNA?数据库的用户想知道被测序的DNA分子的来源。例如:尽管cDNA是在DNA(不是RNA)上进行测序的,在细胞中的分子表现型却是mRNA。同样对于rRNA基因的基因组测序而言,测序的分子几乎全都是DNA分子。将rRNA复制成DNA,就象直接对rRNA测序一样,尽管是可能的,但很少这样做。记住:既然被提交的基因必须有独特的分子类型,它就不会表现出(例如)一种基因组和mRNA分子的混合类型,否则实际上不会从一个活细胞中提取出来。

序列是合成的,但不是人造的吗?回目录


合成分子在核苷酸数据库中有一个特殊的分类,在此环境中,序列被按照实验排列,而这在自然环境中是不会出现的(如:蛋白质表达的载体序列)。DNA数据库不接受计算机产生的序列(如:同源序列),在数据库中的所有序列都是从有问题的实际分子序列中通过实验获得的,但是它们可以被汇聚成测序训练猎枪。

序列有多精确?回目录


在数据库文献中很少提到这个问题,但假设被提交的序列尽可能精确,这通常意味着整个提交序列至少包括两相覆盖域(相反方向)。证实最终提交的序列也同样重要,它必须无载体的污染(这可以用在载体数据库中BLASTN查寻证实:参见其后的第7章),可以以已知的限制图谱检验,消除序列重组的可能性,或确认正确的序列集合。
生物体
给每条记录分配正确的生物是至关重要的,尽管在大多数情况下这是很容易做到的。所有的DNA序列记录必须有一个生物分配给它们,从数据库中的记录出现在系统发生树上的位置可以得到许多推论。如果它们被错误的安置了,可能会翻译错误的遗传密码,并产生被错误截取的蛋白质产物序列。已经知道的基因和物种的种类足可以使数据库成员识别生物和其谱系。NCBI提供了一个重要的分类服务,分类学家维护能用于所有核苷酸数据库和Swiss-Prot蛋白质数据库的分类法。
引用
注解即使再好,也永远比不上一篇充分阐述生物学的已发表文章,因此,有必要保证正确链接研究出版物和它将引用的原始数据。基于此理由, 提交中准备好引用是很重要的,即使其中只有作者的临时列表和工作标题。在出版时更新这些引用对于记录的价值也很重要。(这由数据库成员惯例的执行,而且如果提交者在发表文章以前通知数据库成员,将执行得更快)。
编码序列
核苷酸序列的提交也意味着包括其编码的蛋白质序列,这是因为:
1. 蛋白质数据库(如:Swiss-Prot和PIR)几乎完全由在DNA序列数据库中记录的蛋白质序列所组成。
2. 在提交过程中包括蛋白质序列如果不是必需的话, 也是重要和有效一步。
蛋白质包括执行我们研究的许多生物反应的酶分子,其序列数据是提交中的固有部分,它们的重要性(在第6章中概述)也在提交过程中体现出来,在各种数据库中其信息作为代表性必须被捕获。如果已知的话, 蛋白质产物和基因的名称也很重要,有各种各样的资源(许多在总结这些章节的列表中有描述)为给定的生物提供准确的命名系统。(参见“基因命名指导,基因趋势”,1995,Elsevier。)
编码序列特征,或CDS,是DNA或RNA和蛋白质序列的联系,随同正确的翻译表一起, 在有效性中其正确定位占据了中心位置。核苷酸数据库现在用了13种不同遗传密码(参见章末的列表),这些遗传密码由NCBI中的分类学和分子生物工作人员维护。由于蛋白质序列是如此重要,它们是生物学家可以计算的主要分子生物信息资源之一,它们理所当然地得到各种数据库成员的重视。在mRNA中正确地找到开放的读框架通常是很简单的(参见第10章), 并且有多种工具可供利用 [ 如:NCBI的ORF查找器(见章末列表)],而且在Sequin中是作为一个函数(如下);从一个较高级的真核生物获得正确的CDS间隔就不那么容易了:必须连接不同的外显子序列,这涉及许多方法,在第10章中有介绍(如果给定蛋白质序列和正确的遗传密码的话, Sequin中的推荐间隔函数可以计算CDS间隔)。在提交中包括什么内容将由数据库工作人员来决定, 更恰当地说, 这受到所使用的提交工具的限制, 如通过互联网或Sequin。有效性检查包含CDS间隔中的起始和终止密码子,该间隔具有合法的外显子/内含子一致边界,用合适的遗传密码可将提供的氨基酸序列从指定的CDS中转换出来。
其他特征
在提交序列记录的特征部分还有许多其它特征,并且其中许多特征将扩充记录内容。在特征表文件中描述了完整的特征集,该文件可以WWW方式取得或通过匿名FTP获得PostScript 文件。尽管有许多特征可供利用,但在数据库中却有许多不一致的用法,主要原因是缺乏一致的原则和生物学家们对它们究竟意味着什么看法很不相同。正确地获得生物、书目、基因、CDS、mRNA通常就足以并且有助于证实序列,使生物学家通过几行文字就能获得生物学的内容。只要应用恰当,一个特征表文件是可以利用的,但要注意文件注解的意图。

种群、系统发生、变异的研究回目录

现在核苷酸数据库可接受种群、系统发生、变异的研究作为提交的序列集,尽管在简单文件记录中并没有充分描述该信息,但它却在各种各样的数据库中出现。新型的提交方式允许:若仅因为操作的原因,一起提交一组相关序列,那么获得共享信息入口只需要一次请求。Sequin也允许用户包含有用自己中意的比对工具生成的序列比对结果,并随着DNA序列提交该信息。尽管所有的数据库都知道该信息对于目前获得的大量记录很重要,但是NCBI是唯一接受该信息的数据库。显示该信息的新方法(如:Entrez)应尽快能使一般科学团体更易获得这种数据。

仅提交蛋白质序列回目录


在大多数情况下,蛋白质序列和DNA序列并存,但也有些例外�人们直接处理蛋白质序列�这些序列必须在没有相应的DNA序列的情况下提交。对于这些提交而言,目前SWISS-PROT是最好的地方,EBI处理这些提交,并将其传送到SWISS-PROT。

如何提交到互联网回目录


Authorin利用率的下降使这三个数据库决定在互联网上采用基于表格的方式,这个新的媒介能很好的适应提交过程。三个数据库都设计了一种表格,以使DNA序列提交到自身的数据库中:DDBJ的Sakura(樱花开)、EBI的WebIn、和GenBank的BankIt。互联网是简单提交序列的理想提交途径(如图14.1),也是那些不需要复杂注解和过多重复的提交序列的最佳选择(如:在种群研究中,很典型的有30条类似的序列,用Sequin提交最好)。互联网对于那些只做少量提交和要求较少、只需要简单的学习或不需要的研究小组最为理想。对于大多数提交来说,互联网的表格方式将是合适和足够的:60%�80%的提交者通过互联网向NCBI提交其DNA或RNA序列。

如何用Sequin提交回目录


Sequin是设计用来协助科学家准备新序列,更新序列数据的一个程序,利用它将序列数据提交到DDBJ,EMBL和GenBank数据库。这是一个能在绝大多数计算机平台上运行的软件,而且适用于各种序列长度和复杂情况,包括传统的(基因大小)核苷酸序列,分段的记录(如:剪接的基因组,不是所有的内含子序列都已被确定),有许多注解特征的长序列(基因组大小),和各种相关序列(如:对于一个特殊基因、域或滤过性病毒基因的种群、系统发生、变异的研究),许多这样的提交能通过互联网执行,但Sequin 在复杂的情况下更实用。而且特定类型的提交(如:分段类)不能通过Web来完成,除非给数据库工作人员加以明确的指导。
Sequin 也接受以提交的核苷酸酸序列编码的蛋白质序列,允许在这些蛋白质上进行特征的注解(如:信号肽、跨膜区或二硫键)。这与大多数科学家在提交DNA序列时的普遍观点形成鲜明的对比。这里的新概念是蛋白质是直接注解的,而不是编码生成之的DNA的副产物。对于各种相关或是相近的序列(如:种群或系统发生的研究),Sequin从提交者处获得关于多个序列是如何比对的信息,最终它可以用来编辑和重新提交已存在于GenBank中的记录,不论是延长(或取代)已有的序列,还是注解附加的特征或比对。
进入一个新的提交过程
Sequin有许多性质大大简化了创建和注解一条记录的过程。最神奇的一方面是在只给定核苷酸酸序列,蛋白质产物序列和遗传密码(从生物的名称中自动获得)的情况下,自动计算CDS特征间隔。这所谓的“建议间隔”过程在计算中考虑了一致的剪接位点。传统上这些间隔是手工输入的,这是一个既耗时又易错的过程,尤其是对于一个在可变剪接或分段时有许多外显子的基因序列。
Sequin的另一种重要的贡献在于能在序列数据库文件的定义行上以一种简单的格式输入相关注解。在读序列时,Sequin识别和提取这一信息,并将其放置在记录中合适的位置。对于核苷酸序列,可以输入生物体的科学名称、品系或克隆名称和几个其它的修饰基因。对于蛋白质序列,可以输入基因和蛋白质名称。(如果在定义行上没有这些信息,Sequin在执行前就会提示用户此信息。定义行的注解是非常方便的,因为信息和序列是在一起的因此以后不容易被遗忘或混淆。)除了组建合适的CDS特征以外,Sequin将自动利用该信息生成基因和蛋白质特征。
由于大多数提交序列包含了一个单独的核苷酸序列和一个或多个编码区域特征(及相关的蛋白质序列),前面概述的功能将频繁地影响一条没有进一步注解时就被提交的记录。由于正确地记录了基因和蛋白质名称,从而使得该记录为其他科学家提供有用信息,他们可能通过一个BLAST的相似性比对或从Entrez查找中获得该信息。
有效性
为保证提交数据的质量,Sequin使用一个内建的有效器来查询。例如:丢失的生物体信息,错误的编码区长度(相对于被提交的蛋白质序列),编码区内部的终止密码子,不匹配的氨基酸或不一致的剪接位点。在错误报告中双击其中一项,在“冲突”特征项中就会出现一个编辑框。
有效器也检查“局部”指示器的使用是否一致,尤其是在编码区、蛋白质产物和产物的蛋白质特征中的使用。(除非作了相反的设置,否则CDS就会自动的同步这些分散的局部指示器,将使纠正这类不一致问题变得很方便。)
观察序列记录
Sequin对同一条记录提供了许多不同的视图。传统的简单文件可以出现在FASTA,GenBank或EMBL形式中。(它们可以在用户计算机中以文件的方式输出,然后输入其它的序列分析包中。)图像视图显示了序列的特征间隔,这对于观察可变剪接的编码区尤其有意义。(图像视图的风格可以定制,这些视图可以被复制到个人计算机的剪贴板中,粘贴到文字处理器或视图程序中,用于准备出版物的手稿。)有一个视图可以更详细地显示实际序列的特征,对于包含比对的记录(如:由一个用户输入的相关序列或通过PowerBLAST中查找的比对结果,参见第7章),用户可以请求一个全图像视图以显示添加、删除和不匹配的情况,或细节视图显示序列字母比对。
上述提及的观察者是主动的,单击一个特征、序列或序列比对图片,将会高亮度显示该处。双击会出现一个合适的编辑框,以便多个观察者使用同一条记录,而能够看到不同的形式。例如:可以很方便的使图像视图和GenBank(或EMBL)的简单文件视图同时显示,尤其是对于包含多个CDS的较大记录。图像视图可比做科学家实验室的记事本图片,为特征注解的准确性提供一个快速实用的检查手段。
先进的注解和编辑功能
Sequin中的序列编辑器能在编辑序列时自动调节特征间隔,这对于想在已提交的序列记录中加入一段5’端的序列尤为重要。在Sequin出现之前,这需要手工添加,并纠正序列中所有生物特征间隔。这样很有可能从草稿开始重做全部提交过程。序列编辑器很象文本编辑器,可在光标所在出处插入或输入一个新的序列。
在提交序列中的一个大类包含了多样的相关序列(如:种群、系统发生和变异的研究),如果用户提交了这些序列是如何自身比对的信息,这些记录将会更有指导意义。这种比对可随序列数据(如:以PHYLIP、NEXUS或FASTA+GAP形式)输入或在输入序列以后用Sequin计算。参见附录II中的各种形式的实例。
对于这些记录,Sequin允许给一条序列添加注解,而且该注解可以被复制到其它的序列中。(若为CDS特征,特征间隔可通过读蛋白质产物序列自动进行计算,而不必全部输入。)为了实现这一方法,选用特征传播的方法(从比对编辑器中),被选中的特征将传播到剩余序列中去,并用比对信息调整特征间隔。这和在每条序列上手工注解特征产生的效果相同。但用特征传播的方法仅需几分钟就能完成全过程,而手工则需几小时。
特征传播和序列编辑器组合起来为更新一个已经存在的序列提供了简单而且自动的方法。更新序列的功能允许用户输入重叠或替代的序列。Sequin设计了比对,在有必要时合并序列,将特征传播到新序列的新位置,以取代旧序列和旧特征。
Sequin作为分析平台
Sequin也提供了许多种序列分析的功能,例如:有一个功能可以反补于序列和特征间隔,也很容易加入新的功能。这些功能在一个称为NCBI桌面的窗口中出现,直接显示调入内存的当前记录的内部结构。该窗口可以被理解为一个有描述器的Venn图表(参见下述和第6章),此描述器能在一组系统中(如:种群研究)应用于各种序列。在桌面上,用户可以读出PowerBLAST的分析结果,再拖动之将其在一条序列记录上释放,从而向记录中加入比对数据,修改的结果将很快显示在观察者面前。注意:并非所有的注解都能被任何一个观察者看见,简单文件视图有其局限性,例如:它不显示比对。
NCBI数据模型支持大量的序列集,Sequin允许为了显示或注解的目的在这些序列集中进行完全的漫游,例如:Nuc-Prot类包含一条核苷酸序列和它的蛋白质产物,核苷酸序列可自身分解。在这种情况下,Seg类包含了片段序列和一个Parts类,Parts类顺序包含每一个片段的原始数据。种群、系统发生和变异可包含多种相关序列或Nuc-Prot类。NCBI桌面是浏览记录内部结构的最快的方法。
数据模型的重要性
Sequin是一种ASN.1编辑器。用ASN.1数据描述语言写成的NCBI数据模型,可用来使相关信息在描述器或特征项中保持在一起,特征项是典型的生物概念(如:基因,编码区,RNAs,蛋白质),这些概念通常在一条序列中有一个位置(一个或多个间隔)。描述器可用于传送应用于多个序列的信息,这样避免了重复输入同一条信息的多个拷贝。
例如:BioSource描述器包含了一个生物体的科学名称,常用名称,分类学上的链接,GenBank分类,和修饰器(如:品系、克隆、染色体、图谱位置)。将此信息收集在一起记录在数据详细说明书中,将便于用户输入和修改。将单个的BioSource描述器应用于Nuc-prot集将满足证实者的愿望: 在每条序列, 包括蛋白质序列上都有生物来源信息, 这同时也是数据库的规定。
在GenBank简单文件视图上双击一段,或在图形视图中双击一个特征,将激活一个编辑器用于修改该项的永久性的信息。在某些情况下,特别是在BioSource或出版物中,这些项可能是描述器或者是特征,并且在简单文件中将其区分开来是困难的。(在NCBI桌面上可以很容易地区分描述器和特征。并且只有特征和序列在总结、图表、比对、和序列视图中出现。
对于偶然的使用者来说,数据模型导致习惯可能并不明显(请看GenBank或EMBL的视图文件),但确实能够简化生物信息的输入。例如:在GenBank简单文件的头部出现的文献能够包含一个评价的子部分,在这里可以输入解释关于引用的生物学结论,和那些关于序列记录的信息。在报告中文本通常和引用在一起,相反将解释性的信息放置在大的注解段中,并用编号指向引用的文章(如“〖5〗”)是一种冒险性的做法,因为这些编号可能会发生变化,(例如由于新的文献的引用),将导致编号和文献不相符。
类似地,对于特征的引用(例如确定在编码区中核糖体的滑动)内在地引用了文献,而不是文献编号,即使在简单文件中显示了一个数字。这是另一个惯例允许文献编号改变而不“破坏”引用的完整性。并且这意味着只有一个完整的引用复本,这将使更新文献中的任何信息变得更容易。
然而,应该保守地使用对于序列记录的文字上的引用,一个序列记录并不是一门学科的回顾,使用Entrez中的链接和近邻是一种更加可靠的收集信息的方法和使用序列数据库作出最初发现的方法。
在最简单的情况下,单个的核苷酸序列有一个或多个蛋白质产物。Sequin允许用户不了解数据模型的结构层次而使用它。CDS特征编辑器用来输入蛋白质序列(或将其从已输入的地方翻译出来),并且输入或修改特征(提供了蛋白质的名称)。用户可以获得(单个的)蛋白质特征而不必在整个蛋白质序列中“漫游”。并且CDS编辑器也用基因名建立了分离的序列特征。
如果预期有关于蛋白质产物序列的大量的注解,那么漫游是必需的,至少作为对于数据模型的一种粗略的了解,许多蛋白质有半胱氨酸的双硫键。结合区,活性区,糖基化区,信号肽,或跨膜区。关于这些部分的注解对将其作为BLAST或Entrez检索结果的生物学家很有意义,对于给定序列设置目标控制使观察者转向显示该序列的图形平面或文字报告。使用注解子菜单建立的任何特征或描述器将和当前的目标序列组织在一起。
虽然Sequin确实提供了在一个结构记录中所有的序列间进行完全的漫游的功能,但是最初的序列数据建立原始的结构最好由Sequin的“创建新提交”功能来完成。Sequin在前面的步骤中提取信息,(例如生物体和资源编辑器,基因和蛋白质名称)并且知道怎样正确的将每个信息填充在合适的位置。这也就是Sequin的主要设计目标之一。手工注解需要对于数据模型更详尽的了解,和对于具有使用Sequin复杂功能的专业技能。
完成的提交可以存储到磁盘(File->Prepare Submission)和发送电子邮件到某一数据库,在Sequin期间经常存盘是一个好习惯,可以避免无意中的数据丢失。
提交单个的序列
最简单的交包含一个单个的没有中断的核苷酸序列和一个或多个蛋白质产物序列。这些序列典型地来自于传统的基于基因的生物学研究,并且这样的提交在大多数情况下可以通过互联网(请看上例BankIt)或Sequin来完成,Sequin提供了许多已经确认的好处和对于各种网络连接的独立性。
提交一个比对的序列集
一个逐渐增长的提交项包括相关的序列类:种群、系统发生或变异。许多的HIV序列是用来作为种群研究的,通常系统发生的研究包括RUBISCO(1,5二磷酸核酮糖羧化酶),它是光合作用的主要酶,也许是地球上最普遍的蛋白质(重量方面)。提交这样一套序列并不比提交单个序列复杂多少,输入作者和联系人的信息具有相同的表格。
在序列格式表格中,选择所要提交的类型。种群研究一般来自于同种(交叉繁殖)物种的不同个体,系统发生是来自于不同的物种。对于前一种情况,最好下定义行加上品系、克隆、隔离或其余的一些种类识别的信息;对于后一种情况,要用生物体的科学名称。复杂序列的研究可以用FASTA形式,在这种情况下,Sequin后来应该用于计算一个比对。更好的方法是在PHYLIP,NEXUS或FASTA+GAP形式中对数据编码以表示比对信息。在序列格式表格中也可选择这些数据形式。
生物体和序列表格在序列种类上有一点不同,生物体页面上对于系统发生的研究设置默认的遗传密码,仅用于生物体,不能用于Sequin中种群的局部列表。核酸页只在引入按钮的名称上有所不同,这反映了选用的实际格式(例如“引入FASTA”或“引入PHYLIP”)。
通过特征传播进行注解
假定提交几种乙醇脱氢酶基因组区域,同时传送一个比对,表明了提交者对于它们之间的关系的判断。序列包括5’和3’未翻译的区域以及乙醇脱氢酶外显子和内含子。假设由第一个核苷酸编码的蛋白质序列也是可获得的,下面使用特征传播来注解研究中的所有序列。
首先,定位第一条序列。然后从编码区和注解菜单的副本子菜单选择CdRgn。进入产物子页(在编码区页中);并且输入蛋白序列文件(在文件菜单中引入蛋白质FASTA)。如果在定义行上蛋白质和基因名没有被注解,那么在蛋白质子页和属性子页的一般页中分别输入其注解。引入序列自动运行建议间隔,因此现在位置页在第一个核苷酸上应该有三个间隔,并且BioSource应该已设置了那个核苷酸上的遗传密码。按下接受(Accept)完成特征的添加。
定位所有的序列(ALL SEQUENCES),从编辑菜单选择编辑比对打开比对编辑器,并从特征菜单选择传播。在第一个框中选择CDS特征。最后,按下传播按钮(要看记录结构的变化过程,在这几步中将NCBI桌面打开。)
具有网络连接的Sequin
当配置为网络连接时,Sequin包括PowerBLAST, 网络Entrez,可实现MEDL/PubMed查找的能力,以及分类学查找的功能。从查找菜单选择PowerBLAST,将出现一个对话框,提供选择运行BLASTN或具有核苷酸比对的BLASTX;另外,还可以选择搜索nr数据库或几个子数据库,包括est和载体,其结果自动添加到序列记录中,并将在摘要、图表、比对和序列视图中出现。
在这些视图之一的比对上双击将从Entrez网络服务中获取相关的序列记录,在结果观察窗的底部是近邻和链接控制。因此若一个用户对某疾病基因进行了测序,并在Sequin内运行PowerBLAST,他将立即看到数据库“选中”,而且只需一步就可以得到讨论该生物学问题的MEDLINE文献,同时还有该记录的邻近记录,然后将其发送到Entrez查询窗口(通过Refine按钮),在那里,例如可通过选择或排除某分类目录来缩小查询范围。
为了配置网络应用,从Misu菜单选择网络配置(Net Configure)。如果使用了防火墙的话选中“只有往外去的链接”检查框。通常来说,除非网络有暂时性的问题,“在配置过程中测试链接”检查框应被选中。
在本书编写的过程中,在Sequin中加入了无数的扩充。紧跟最新发展的最好方法是(例如:新版本的Sequin;排除了bug)访问Sequin的主页和注册为Sequin的用户。Sequin的主页同样包括了最新更新的信息和完全的文档以及常见问题列表。
EST/STS/GSS
表达的序列标签(ESTs)是一些短的RNA序列,它们是克隆mRNA序列鉴定计划的结果(更广泛的定义参见词汇表)。虽然这些序列代表了大量的现存的核苷酸数据库的内容,但从数据库的观点来看,ESTs只包含了提交过程的一小部分投资。只有这个过程的自动化使处理ESTs成为可能。因为EST文件的提交格式简单,使其很便于快速处理,而且可以达到每天数千个提交进入数据库的量级。ESTs通常大量生成,并且代表了在GenBank版本102中的超过三分之二的记录。仅仅因为其数目巨大,许多核苷酸数据库被迫为其提交和该形式记录的处理设计了新的系统。幸运的是这些记录的结构相当简单,而且除了序列本身以外,在提交过程中只有几种重要的数据类型需要合并进来,包括关于图书馆的信息(包括BioSource),以及引用信息。另外,为了提交可能知道的关于某个特定的EST的图谱信息,数据库为图谱组发展了一种简单的方法。该信息的简单结构使其非常符合关系型数据库模型,由其可以调出简单的数据项进而由其生成各种报告,在最简单的情况下提交者只需提交一个文献信息文件,一个联系信息文件和一个库信息文件。它们可以和数以百计(或数以千计)的EST文件一起发送(参见图14.22),其中包括将每个序列链接到其它类型合适文件的标签。这些文件通常由定制的程序创建,确保在不同的记录间该信息是不变的。然后这些文件通过e-mail的方式提交(如果其数目在百的量级上),或借助于FTP(如果其数目在千的量级上),提交记录所需的数据库当前的地址和联系信息参见本章末的列表。
这个提交模型是如此成功以致于为序列标签位置(STS),和基因鉴定序列(GSS)数据库提交过程所借用,在这里同样使用了具有几个变量的简单文件格式。
 

基因组中心回目录

专门研究大段DNA(每年几十万到几百万的碱基对)的中心有其自己的信息处理系统,他们不仅设计了自己的数据库系统,并且他们的程序员维护软件和数据库以明了各种各样的测序计划,而且他们将组织此信息以允许跟踪其集合,性能跟随,和早期发现问题。基因中心将他们的结果格式化为多种形式,通常包括WWW网页,将他们生产的信息直接对社区全部开放或只面向他们的顾客。如果这些基因中心希望他们的序列可被公共数据库得到,那么他们与这些数据库之一联系以确保正确的数据交换。这三个数据库( DDBJ,EBI,和NCBI)具有与这些不同的基因中心打交道的经验以确保及时有效率的信息交换(尽可能的快)。这包括自动数据交换的设置,特殊FTP帐户的建立以便于以一种准确、方便的方式进行数据交换,以及生成工具确保以最有用的方式进行数据交换。在NCBI,为所有向该组织提交数据的基因测序中心建立了FTP帐户。还有设计了各种各样的工具用来加速提交高吞吐量的基因序列(HTGS)。在GenBank的两个分部可以找到这些HTGS记录,查询结果依赖于它们的完成情况(参见第二章)。未完成的记录(第1段或第2段)在GenBank的HTG分部,而完成的记录(第3段)在它们所属的分类学分部里。在它们整个的存在过程中,HTGS记录拥有一致的DDBJ/EMBL/GenBank确认号码。NCBI设计的一种用来建立这些记录的工具是fa2htgs,这是一个命令行程序,可以很容易地编写脚本,并允许用户从FASTA文件和一个Sequin模板生成HTGS提交。就象其它所有的NCBI产品,该程序对于大多数计算机平台都是可使用的。
高吞吐量的基因组测序也意味者序列使用方式的改变。这就是由这些中心生成的序列由HTG关按钮字标识的原因,目的是使用户在他们的分析中有选择的使用这些数据,或者简单地注意到其来源。如此标记的数据不应和未完成的记录相混淆,后者不仅有HTG关按钮字,而且在GenBank的HTG分部中。这在第2章中由Ouellette和Boguski(1997)更详尽地予以检验。基因组中心愿意与之合作的数据库应该通过最新的指南和工具确保对于HTG数据的合适的处理。
更新
更新DDBJ/EMBL/GenBank记录可能是强加给每个科学家的最没有报酬的任务之一,这项工作没有什么刺激性,也没有什么科学荣誉,而且它很少受到注意。然而,这项工作是完成提交过程后最重要的步骤之一,它确保了在记录中的信息仍然是正确的。更新记录的最重要的方面是通知数据库与该记录联系的引用的文献的发表。这将允许数据库工作人员更新数据库中的引用,进而允许将其链接到合适的参考数目上去,(参见第5章),然后记录可以链接到大量的相关引用上,以及使用Entrez可得到的知识范围。
信息的另一个重要方面是在记录中提到的每种蛋白质和基因的正确名称;同样,此处的一个更新允许在信息和数据库中可比较的材料之间建立合适的链接。数据库给出了更新记录的e-mail地址和WWW地址,而且Sequin也可用来执行此项任务,Sequin设计用来更新已存在于数据库中的序列记录,要下载已存在的记录,必需将Sequin配置为具有网络连接(网络连接菜单项包括了设置此连接的对话框)。然后待Sequin重新启动后,“从Entrez下载”(Download from Entrez)的按钮将在开始窗口中出现,这允许输入一个加入号码并直接从ID数据库中获取。通过更新引用(可通过MEDLINE、PubMed 查找器获得)或增加特征来编辑记录,或利用序列编辑器加入新的序列,在后一种情况下,采用更新功能可能比直接将其贴到序列编辑器中更加方便。加入了新的更新特征,并且建议Sequin用户访问Sequin的WWW站点以确保他们获得了最新的版本。
这三个数据库的工作人员都欢迎使更新过程尽可能地有效和无痛苦。也强烈建议那些注意到记录已发表却还没有公开的人们通知数据库。如果有人检查到错误,同样应该传送到更新地址,据此数据库工作人员通知记录的所有者,并且通常导致结果的改正。这条事件链可以同第三方注解分别开来,该方式目前并不被数据库所接受。记录属于提交者,数据库工作人员提供了一些帮助,格式化指南建议,但是实质性的改变只能是来自于列表中的提交者。

词条信息

darknova
版本创建者 发短消息