生命经纬知识库 >> >> 历史版本

历史版本1 : 返回词条

  开始测序之前,必须根据待测序列区的长度,所要求的测序精确度以现有有设施来制定测序总策略。只有一小部分的研究划需需分从头测定大段从测定过和序列,而列多的情况是通过测序对突变(如点突变和缺失)进行定位和鉴定,并证实构建的重组DNA的方向与结构。用于上述两种目的的方略大不相同。
 

目录

[显示全部]

DNA序列确证性测定策略回目录


确证性测序(例如对利用寡核苷酸倡导的诱变而产生的突变体进行测序)往往只需要仅仅一套反应,以取得双链DNA其中一条链上局部区域的核苷酸序列,通常只须对亚克隆于M13噬菌体或噬菌粒载体上的一段合适的限制酶切片段进行测序,即可如原以偿。在许多情况下,等测区落于通用引物的测序范围之内;若不然,最好的方法就是合成一段长度为17-19核苷酸的寡核苷酸引物,与距离待测区约50-100核苷酸的序列互补。只要可能,应同时测定野生型基因上同源区的序列和突变的相应序列。直接在同一张放射自显影片上对照有关序列,极有助于确证变异区序列并将使突变体与野生型基因之间任何出乎意料之外的其他差异一目了然。

 

DNA序列从头测定策略回目录


  从头测序的目的是要提供一段DNA的准确核苷酸序列,这一区段可长达数千碱基,而其序列从来未经测定。由于单套测序反应所能准确测定的靶DNA序列最长可达400碱基左右,因引进行从头侧序必须经过精心策划。长约400碱基的枝DNA可以按互为相反的方向分别克隆于2种M13噬菌体载体(如M13mp18 和13mp 119)上。然后每条链的全序列可以通过利用通用测序引物进行的单套反应得以测定。如果要对更长的靶DNA(如长达数千碱基)进行测序,则可在两种通用策略中一而行:
(1)随机法(或鸟枪测序法) 在随机法中,序列资料是从含有靶DNA随机片段的亚克隆中收集而来的。既不须努力确定这些亚克隆在靶DNA中的位置,也不必设法查明究竟测出的是哪一条链的序列,只要把积累资料贮存起来,最后可用计算机排列妥当(Staden,1986)。这一方法是由剑桥的医学研究委员会(M.R.C.)实验室率推行的,曾经成功地用于测定人线粒体DNA(Anderson 等,1981)、人腺病毒DNA(Gingeras等,1982;Roberts等,1986)、λ噬菌体DNA(Sanger等,1982),以及Epstenin-Barr病毒DNA(Baer等, 1984)的序列。
(2)定向法 在定向法中,靶DNA的测序按计划有秩序地进行。例如,靶DNA的全序列可以通过测定一系列嵌套的缺失突变体的序列而获得,这些突变体具有相同的起点(通常在靶DNA的一端)并分别穿入靶序列区纵深不同距离处,因此它们可以使靶DNA中更遥不可及的区段渐进地落入可利用通用引物进行测序的范围之中。另一种方法是,利用一套反应中取得的核苷酸序列设计新的寡核苷酸充当后续一套反应的引物,从而循序渐进地获得从示测定过的靶DNA片段的序列。因此在这一方法中。DNA序列的积累是通过沿DNA链渐进移动引物结合位点而实现的。尽管对随机法与定向法的取舍通常由实验室的物力与专长所决定,但仍有一少其他因素也会影响最终的抉择,这些将在稍后加以讨论。
选择随机定向测定策略的影响因素
(1)计算设备 任何大规模的测序计划将在很大程度上依赖计算机程序对原始序列资料进行分类、整理和排列(Staden,1986)。在权衡随机法的利与弊之时,必须将与适当的计算机设备进行联机的问题放到压倒一切的位置上来考虑。如果这些设备尚无从适当的计算机设备进行联机的问题放到压倒一切的位置上来考虑。如果这些设备尚无从谈起,就必须将采用随机策略的想法束之高阁,转而从前已述及的两种定向方法中择一而行。
(2)靶DNA的性质:如果靶DNA很可能会有散在的重复序列,那么就应当组建嵌套的缺失体用于测序。计算机在区分重复序列方面可能束手无策,而寡核苷酸引物则会同多个位点发生退火。
(3)完成测序计划所需时间:完成一个测序计旬所需工作蜈可通过以下指示进行估计:
1)从单套反应中平均可是300-400核苷酸的序列。
2)一个人一天可以轻松自如地操作24-32套反应。
3)因此一个测序工作周,可以测出15kb核苷酸序列,这一周包括:
a.用一天时间制备单链DNA模板。
b.用一天时间测定DNA序列。
c.用一天读出原始DNA序列并加以排列。
d.再用两天生物旱生测序、重新进行电泳,以便澄清模棱两可这处并取得各个克隆之间的重叠区序列。
  采用随机法,所要测定的序列通常会比靶DNA所具有的实际长度4-6倍。在大多数情况下,直至双链90%左右的序列测出以后,才能得到单一的一段邻接不断的序列。由于进行测序的亚克隆是随机挑选出来的,因此靶DNA某些区段的序列在全段序列未能测出前会被重复测定,至于需要多长时间才能找出最后几个亚克隆并进行测序,从而使序列提以测全,则无法未卜先知。往往会发现,以上亚克隆在文库中得不到充分反映,因此南非要处用与侧翼序列相应的寡核苷酸探针进行筛选,以分离这些亚克隆。利用限制酶将大分子靶DNA进一步分为大小适中(4-5kb)而易于处理的片段,可以使上述推理上难题得以缓和,每一个这样的片段都可以用随机法单独进行测序。
  定向缺失法有时需要投入大量的时间生成并鉴定一整套嵌套的缺失体。然而一旦这上步水到渠成,则可以从靶DNA上早以妥善安排的多个区段上互为相反的两端向内部延伸,才能测定DNA双逻的全序列。另一种办法是用单套缺失突变体来取得靶DNA单链的序,然后利用其信息合成一套寡核苷酸引物,以便用于确证DNA互补链的序列(见后)。
(4)使用寡核苷酸合成仪的方便程度:如果能够无拘无束地使用寡核苷酸合成仪,则可快速、廉价地合成由用户设计的引物。假定要花1-2天时间来合成一个寡核苷酸,那么在最快速度下每周可以由靶DNA的一个特定起点开始从头测定600-800个核苷酸的序列。如果同时使用几个起点开始从头测序; 或者也可以将M13mp18和M13mp19噬菌体载体,利用通用引物同时从两端开始测序;或者也可以将序列内部的限制酶切片段亚克隆循下列原则:设计DNA测序物时,应遵循下列原则:
1)应寡核苷酸与靶DNA的正确主靶DNA中确凿疑的序列相互补。尤其是利用循序渐进的寡核苷酸法来测定从未测过的DNA序列时,这一点更加重要。尽量让新设计的寡核苷酸互补于已知序列的最远端,这是十分自然的人民代表倾向。然而在大多数情况下,该序列是从测序凝胶顶部间隔紧密的条带中读取的,而在此处发生阅读错误往往司空见惯。因此紧好保守一些,让所设计的引物与位于样品泳前沿之后一定距离内的序列机互补,在凝胶的这一区段上读出的序列可信程度较高。
2)引物的碱基组分比便应匀称[40-55%(G+C)], 而且长度至少应有18个核苷酸。 如果(G+C)%
在上述阈值之外,应将寡核苷酸长度设计为(18+n/2)个核苷酸,其中对AT丰富区,则n=50-(G+C)%对GC丰富区,则n=(G+C)%-50。
3)检查新设计二重对称区,因为可自杂交形在发夹或茎环结构的寡核苷酸是低物。效引
a.其中不含二重对称区,因为可自杂交形成发夹或茎环结构地寡核苷酸是低效引物。
b.它既不会同载体DNA也不会同序列已经测出的靶DNA区段相互补,如能保证这一点,将大大减少寡核苷酸从模板DNA的不只一个位置上引导DNA合成的可能性。已商品化的大部分用于DNA分析的计算机程序都能够从序列中检索合成寡核苷酸的互补区。
(5)序列的准确性:如果认真地进行DNA序列测定,错误率将小于0.1 %。但要达到这样高的准确性,必须完整地测定靶DNA两条链的序列并澄清棱两可及相互矛盾之处。在这一点上随机测序有其优点,因为在该方法中耐需要骤步对丰余的原始序列资料进行累积,从而使最终所排出的序列的准确性大为改观。然而靶DNA中可能存在一些区域,无论采用随机法还是定向法都不能准确测定其序列。解决这些凝难序列往往需要花费意外长的时间,有时还要使用碱基类似物(以消除条带压缩现象)或Maxam-Gilbert测序法。
(6)测序计划的下一步打算:不同的测序策略将会得到不同类型的样品材料,这些材料可用于以后的实验。例如,为NDA测序而构建的多套缺失体可用于研究启动子区中的结构域,而与靶片段不同区段互补的多套寡核苷酸,可用于测定靶DNA突变体的序列。为鸟枪法测序而构建可以留作随后进行定点诱变或制备放射性标记探针的材料

 

DNA测序常见问题分析与解答回目录


DNA测序样品用什么溶液溶解比较好?
    答:溶解DNA测序样品时,用灭菌蒸馏水溶解最好。DNA的测序反应也是Taq酶的聚合反应,需要一个最佳的 酶反应条件.如果DNA用缓冲液溶解后,在进行了测序反应时,DNA溶液中的缓冲液组份会影响测序反应的体 系条件,造成Taq酶的聚合性能下降。 有很多客户在溶解DNA测序样品时使用TE Buffer。的确,TE Buffer能增加DNA样品保存期间的稳定性, 但TE Buffer对DNA测序反应有影响,根据我们的经验,我们还是推荐使用灭菌蒸馏水来溶解DNA测序样品。

提供的测序样品为菌体时,以什么形态提供为好?
    答:一般菌体的形态有:平板培养菌、穿刺培养菌,甘油保存菌或新鲜菌液等。我们提倡寄送穿刺培养菌或新鲜菌液。 平板培养菌运送特别不方便,我们收到的一些平板培养菌的培养皿在运送过程中常常已经破碎,面目全非,需要用户重新寄样。这样既误时间,又浪费客户的样品。一 旦是客户非常重要的样品时,其后果更不可设想。而甘油保存菌则容易污染。 制作穿刺菌时,可在1.5ml的Tube管中加入琼脂培养基,把菌体用牙签穿刺于琼脂培养基(固体)中,37℃ 培养一个晚上后便可使用。穿刺培养菌在4℃下可保存数个月,并且不容易污染,便于运送。

与测序引物有关的问题回目录


    答:对于通用测序引物,只要正确使用,一般不会有太大问题,测序引物问题主要发生在客户自己提供的PCR引物上。应该明确的一点是并不是所用的用于PCR的引物都可以用来作测序,以下几种PCR引物将是不适 合用作测序引物的:
(1)简并引物, 简并引物必然要在测序模板上有多个结合位点,直接影响测序结果。
(2)随机引物,如RAPD引物, 随机引物一般都比较短,所用退火温度低,在测序反应的条件下,不能很好地与模板结合。
(3)过长的引物,一般要求测序引物不大于24bp,最长不能超过30bp。 过长的引物在测序反应的较低的条件下容易在测序模板上有多个结合位点,导致测序结果背景增高。另外,较长的引物纯度也将难以保证。通常用于测序的引物纯度要在90%以上,引物纯度低时,测序反应的背景将 明显增大,直接影响到测序结果。
(4)有特殊标记的引物,
该情况主要指荧光标记的引物。我们测序反应的四种碱基都是荧光标记的,这样,荧光标记的引物将产生干扰。另外,其他一些有大的标记基团的引物也最好不要用于测序。引物上大的标记基团将直接影响到DNA 片段的迁移率,导致测序结果峰型不好或错误。
(5)不纯的引物,
测序引物对纯度的要求很高,合成的引物中非全长的片段可以造成较强的背景。以一个20bp的测序引物为例, 直接脱盐纯化的话,纯度至多在70%左右,也就是说将有30%的引物将作为背景噪音,这必将严重影响测序结果。 一般经PAGE或OPC法纯化的引物基本能达到测序的要求。 

怎样选择(设计)测序用引物?
   答:测序用引物要求非常严格,不同于PCR用引物。PCR用引物一般只要能和模板结合,3’端的几个碱基能完 全配对,即使引物长达80~100多个碱基,只要调整PCR反应条件,也能成功进行PCR反应。 而测序用引物便不一样了,必须严格符合以下要求。本公司的测序用引物全用引物设计软件Primer设计。在 本公司测序时,我们可免费帮助设计测序用引物。
(1)长度在15~25个碱基左右,一般选择20个碱基(根据GC含量作适当调整),
(2)3’端尽量选择G或C碱基(但不绝对),以增加与模板的结合能力。
(3)Tm温度应选择50℃~70℃左右。
(4)GC含量应选择在50%左右,尽量避开A、T、G、C的连续结构。
(5)避开引物自身形成发夹结构或引物二聚体结构等复杂结构。
(6)保证引物和模板100%匹配,特别是3’端的几个碱基一定要100%匹配。同时必须严格保证引物和模板之间 只能有一个结合位点。 

PCR片段直接测序和PCR片段经克隆后测序的结果有何区别?
   答:众所周知,PCR圹增过程中会出现很多错配现象,但不可能所有的错配都发生在同一位置。PCR片段直接 测序时,其结果是PCR片段众多分子的混合物的结果。如果在某一个点上出现了几十次错配现象,但大多数 分子(或许是几十万个分子)在这个点上应该还是正确的,在测序时,错配现象也就是反映不出来了。因此, PCR片段直接测序的结果反映的是PCR用模板最原始的结果。而PCR片段经克隆后测序是测定了某一个分子的DNA序列。在几十个循环的PCR扩增过程中,很难保证某一个分子的任何点都不发生错配。因此,PCR片段经克隆后的测序结果,往往存在着一些错配的序列,和PCR片段直接测序的结果相比有些碱基会有所不同。这种错配现象的多少取决于PCR扩增时使用的DNA聚合酶的保真性能。要减少PCR扩增过程中的错配现象,在PCR反应时,请选用保真性能高的DNA聚合酶。

我的基因序列与标准序列为什么有差别?
   答:一段基因序列经扩增后,克隆到载体中进行测序。在两个层次上可能导致序列发生变化。首先在PCR扩增过程中就可能产生错误。将片段克隆到载体中也有可能发生突变。其次,测序的准确率问题。 ABI公司承诺其仪器的测序精度在一定范围内可以达到98.5%以上。由于仪器准确率的限制,在一个较 长的序列中发生碱基序列错误是难以避免的。在确认克隆无误的情况下,通过双向测序可以最大限度 减少测序的错误。您如果想得到您的最准确的序列,进行双向测序是很有必要的。只进行简单的单向 测序,我们无法保证所测序列的完全准确性,这是由仪器的精度决定的。

过短的PCR产物为什么不适于直接测序?
   答:首先过短的PCR产物纯化困难,一般的PCR产物纯化试剂盒都要求PCR产物片段大于150bp,过短的 PCR产物纯化和准确定量都非常困难。因此我们要求用于测序的PCR产物一般不低于150bp长度。其次,由于测序技术本身的限制,测序反应对环境的干扰比较敏感,模板太短的PCR测序受外界的 干扰更大,很容易造成测序失败。

用测序的方法检测点突变可靠吗?
   答:用测序的方法检测点突变体,可靠性不高。主要有以下两个原因。首先,并不清楚突变的序列与正常的序列的比例是多少。测序反应的信号强度直接与模板的量有关,如果突变的模板所占的比例很少,将直接作为背景噪音了,很难检测出来。只有当测序反应体系中正常的和突变的模板量比较接近时,才能较可靠地检测到突变体的存在。其次,在同一位置,不同碱基的信号强度一般是不一样的。这样即使突变的模板所占的比较较高时,也不一定能准确检测到突变的存在。另外,测序仪是设计用来测序正常的碱基序列的,软件在对扫描的结果进行处理时,会尽量提高主峰而将背景信号尽量压低,以得到尽可能好的结果。因此,当某处出现双峰时,测序仪一般会认为信号弱的峰为背景信号,在处理过程中,将弱的峰进一步压低,这样根部不立于突变体的检测。因此认为,用测序的方法检测突变体的存在不是一个好的方法。

 DNA序列分析的内容
1确定开放读码框
通过翻译得到6条读码框后,下一步就要确定哪个是正确的阅读框。通常,我们选择中间没有被终止密码子(TGA、TAA、或TAG)隔开的最大读码框作为正确结果,即开放读码框(Open Readin Frame,简称ORF)。ORF的结尾比它的起始容易判断。一般编码序列的起始位点是蛋氨酸的密码子ATG;但蛋氨酸在编码序列内部也经常出现,即ATG并不一定是ORF的起始标志。因此,有必要应用其它方法找到5'端非编码区的末端。
幸运的是,确实有一些规律可以帮助我们在DNA中找到蛋白质编码区。就像上面提到的足够长度的ORF(基于随机出现较长ORF的概率很小的事实)。识别边缘处的Kozak序列对确定编码区的起始位点也有一定帮助。而且,密码子在编码区和非编码区有不同的统计规律。尤其是一些特殊氨基酸在不同物种中密码子的使用情况有很大区别,偏爱密码子的规律在非编码区体现不出来。因此,偏爱密码子的统计分析有助于推测5'及3'非编码区,并对发现错误翻译也有所帮助,因为在错误翻译中不常用的密码子会大量出现。不同物种对某些氨基酸使用不同密码子的情况,可见区别非常大。据目前所知,共有六种三联体密码子编码丝氨酸。每种丝氨酸密码子都有可能在CDS中出现,不同物种对密码子的使用具有高度选择性。这种特性可以用于帮助预测DNA的那些区域可能编码蛋白质。
 
除了特定的偏爱密码子,许多物种密码子的第3个碱基位置倾向使用G或C而不是A或T。因此,G/C在这个位置的出现频率较高,这一特征可以进一步用来确定ORF。
最后,如果在起始密码子上游发现核糖体结合位点,就可以更肯定的说找到了一个ORF,因为核糖体结合位点指导核糖体结合到正确的翻译起始部位。但是,不管怎样,预测基因最可靠的方法恐怕还得与同源蛋白质序列比较。

2 内含子与外显子
真核生物的基因有外显子与内含子两部分,外显子组成编码区,内含子不参与编码区的组成。真核生物基因有外显子/内含子的一个结果就是其基因产物可能有不同的长度,因为并非所有的外显子都包含在最终的mRNA中(包含在mRNA内的外显子的排列顺序没有改变)。由于mRNA的编辑产生了不同的多肽,进而形成不同蛋白质,这些蛋白质就互称为剪切变体(Splice Variants)或者可变剪切形式(Alternatively Spliced Forms)。因此,查询cDNA或mRNA数据库(转录水平的信息)时,匹配结果看上去有缺失的部分,而实际上,这可能是可变剪切的结果。
 
3 DNA序列拼接
DNA序列分析的另一个重要方面是将一个DNA克隆经自动测序得到的片段装配成完整的核苷酸序列。有些生化分析要求有相当准确的序列数据,对于一个序列已知的基因,必须核实克隆得到的序列是否与已知基因的序列一致。如果不一致,就必须设计实验加以修正。克隆出错的原因可能是多方面的,如使用了不恰当的引物,或在多聚酶链式反应(Polymerase Chain Reaction,简称PCR)中使用了低效率的酶。
克隆可以是能够直接测序的mRNA,或是以mRNA为模板合成的cDNA。单链克隆的测序过程如下:先根据克隆载体上插入位点两端的寡核苷酸序列设计引物,引物与相应序列杂交上后,它们就以插入序列为模板开始延伸。
双脱氧核苷酸(ddATP,ddTTP,ddGTP,ddCTP)可以终止延伸反应。由于反应体系中有大量的脱氧核苷酸(dATP,dTTP,dGTP,dCTP),它们与双脱氧核苷酸随机结合到模板上,因此延伸反应会终止在不同的碱基上,结果每个引物都合成了一系列不同长度的片段。这些片段通过放射性同位素电泳或者荧光法测序。一般情况下,一次试验不可能测定CDS的全长,因此必须通过重叠片段的多重比对得到整个CDS,这就必须进行序列拼接。
序列拼接软件通过计算序列中每个位点上各种核苷酸可能出现的分值,找出一致序列(Consensus Sequence)。可以设置一些参数来约束每个位点允许出现的错配数。通常,为确定序列拼接的质量,需要对一个片段进行多次测序。正链和负链上每个位置至少在两次以上测序结果一致,该位点的测序结果的才比较可信;相反,序列中的某一位点几次测序结果不一致,这一位点的可信度则较低。
 
测序并得到高可信度的序列是一项需要时间和耐心的工作,尤其在使用自动荧光测序仪进行高通量测序时,更是如此。一个高质量的序列,需要一个熟练的分析人员,在一套可靠的分析软件的帮助下经过数小时对荧光图谱(测序原始资料)的分析才能获得。分析人员要熟悉测序实验操作的缺欠,了解GC富集区(导致强的DNA二级结构域并影响测序结果),重复序列等的影响,所有这些使序列拼接成为一项高技术工作。

 

核酸序列的一般分析流程回目录


1 核酸序列的检索
http://www.ncbi.nlm.nih.gov:80/entrez/query.fcgi?db=Nucleotide

2 核酸序列的同源性分析
2.1 基于NCBI/Blast软件的核酸序列同源性分析
http://www.ncbi.nlm.nih.gov/blast/blast.cgi
2.2 核酸序列的两两比较
http://www.ncbi.nlm.nih.gov/gorf/bl2.html
2.3 核酸序列的批量联网同源性分析(方案)

3 核酸序列的电子延伸
3.1 利用UniGene数据库进行电子延伸(方案)
3.2 利用Tigem的EST Machine进行电子延伸
EST Extractor: http://gcg.tigem.it/blastextract/estextract.html
EST Assembly: http://www.tigem/ESTmachine.html
1.3.3 利用THC数据库对核酸序列进行电子延伸
http://gcg.tigem.it/UNIBLAST/uniblast.html

4 核酸序列的开放阅读框架分析
1.4.1基于NCBI/ORF finder的ORF分析
http://www.ncbi.nlm.nih.gov/gorf/gorf.html

5 基因的电子表达谱分析
1.5.1 利用UniGene数据库进行电子表达谱分析(方案)
1.5.2利用Tigem的电子原位杂交服务器进行电子表达谱分析
http://gcg.tigem.it/INSITU/insitublast.html

6 核酸序列的电子基因定位分析
6.1 利用STS数据库进行电子基因定位
http://www.ncbi.nlm.nih.gov/genome/sts/epcr.cgi
6.2 利用UniGene数据库进行电子基因定位(方案)

7 cDNA的基因组序列分析
7.1 通过从NCBI查询部分基因组数据库进行基因组序列的分析(方案)
7.2 通过从NCBI查询全部基因组数据库进行基因组序列的分析
http://www.ncbi.nlm.nih.gov/geno ... tml&&ORG=Hs
7.3 通过从Sanger Centre查询基因组数据库进行基因组序列的分析
http://www.sanger.ac.uk/HGP/blast_server.shtml

8 基因组序列的初步分析
8.1 基因组序列的内含子/外显子分析
http://www.bioscience.org/urllists/genefind.htm
8.2 基因组序列的启动子分析
http://www-hgc.lbl.gov/projects/promoter.html

9核酸序列的注册
9.1 EST序列的注册(方案)
9.2 较长或全长cDNA序列的注册(方案)
10待分析序列所对应的已知克隆的获取
http://image.llnl.gov

词条信息

admin
超级管理员
版本创建者 发短消息