生命经纬知识库 >>所属分类 >> 生物信息学技术   

标签: 序列比对

顶[0] 发表评论(23) 编辑词条

在寻找基因和致力于发现新蛋白的努力中,人们习惯于把新的序列同已知功能的蛋白序列作比对。由于这些比对通常都希望能够推测新蛋白的功能,不管它们是双重比对还是多序列比对,都可以回答大量的其它的生物学问题。举例来说,面对一堆搜集的比对序列,人们会研究隐含于蛋白之中的系统发生的关系,以便于更好地理解蛋白的进化。人们并不只是着眼于某一个蛋白,而是研究一个家族中的相关蛋白,看看进化压力和生物秩序如何结合起来创造出新的具有虽然不同但是功能相关的蛋白。研究完多序列比对中的高度保守区域,我们可以对蛋白质的整个结构进行预测,并且猜测这些保守区域对于维持三维结构的重要性。
显然,分析一群相关蛋白质时,很有必要了解比对的正确构成。发展用于多序列比对的程序是一个很有活力的研究领域,绝大多数方法都是基于渐进比对(progressive alignment)的概念。渐进比对的思想依赖于使用者用作比对的蛋白质序列之间确实存在的生物学上的或者更准确地说是系统发生学上的相互关联。不同算法从不同方面解决这一问题,但是当比对的序列大大地超过两个时(双重比对),对于计算的挑战就会很令人生畏。在实际操作中,算法会在计算速度和获得最佳比对之间寻求平衡,常常会接受足够相近的比对。不管最终使用的是什么方法,使用者都必须审视结果的比对,因为再次基础上作一些手工修改是十分必要的,尤其是对保守的区域。
由于本书偏重于方法而不是原理,这里只讨论一小部分现成的程序。我们从两个多序列比对的方法开始,接下去是一系列的利用蛋白质家族中已知的模体或是式样的方法,最后讨论两个具有赠送的方法,因为绝大多数公开的算法不能达到出版物的数量。在本章结尾部分将会列出更详细的多序列比对的算法。

目录

渐进比对方法编辑本段回目录

CLUSTAL W算法是一个最广泛使用的多序列比对程序,在任何主要的计算机平台上都可以免费使用。这个程序基于渐进比对的思想,得到一系列序列的输入,对于每两个序列进行双重比对并且计算结果。基于这些比较,计算得到一个距离矩阵,反映了每对序列的关系,于是,基于邻近加入方法,这个矩阵被用来计算出一个系统发生辅助树。这个辅助树,加权后可以证实极相近的序列,然后以双重比对极相近的序列开始,为组建比对提供基础,然后重新比对下一个加入的比对,依次类推。如果加入的序列较多,那么毫无疑问,必须加入空位以适应序列的差异,但是加入空位必须接受空位开放罚分和空位扩展罚分。在绝大多数情况下,使用者不会在比对时加入结构信息,但是空位开放补偿利用了可以出现在α-螺旋或β-折叠末端的特殊残基以及空位罚分所偏好的残基,众所周知,这些残基更喜欢显示这个特异性。已经存在的空位的扩展原则很简单,只是要在那些极有可能在结构中形成弯曲的位点扩展空位,这些空位扩展罚分计算是有位置决定的。
为了介绍基于UNIX平台的CLUSTAL W的使用,考虑一下从四种不同物种来源的UIA蛋白(人类,鼠,Xenopus laevis和果蝇)。这四种输入序列放在一个单独的文件中,作成六种可以接受的格式中的一种,然后在UNIX提示符下执行clustalw,用户必须执行命令才会看见主菜单:
*********************************************************************
**********CLUSTAL W(1.60) Multiple Sequence Alignments******************
*********************************************************************
1. Sequence Input From Disc
2. Multiple Alignments
3. Profile / Structure Alignments
4. Phylogenetic trees
S. Execute a system command
H. HELP
X. EXIT (leave program)
Your choice: 1
选择菜单中的选项1(Sequence Input From Disc)以输入要比对的序列,选择1后会出现序列输入菜单:
Sequences should all be in 1 title.
6 formats accepted:
NBRF PIR, EMBI, SwissProt, Peat son (Fasta), GDE, Clustal, GCG MSF.
Enter the name of the sequence file: UIA.seqs
系统会提示用户有六种可以接受的格式,然后会提问输入序列的文件名,在这里序列输入文件名为UIA.seqs,一旦输入这个文件名,屏幕上会显示读取文件的过程,然后返回主菜单,这时,用户可以选择选项2进行多序列比对:
**************** MULTIPLE ALIGNMENT MENU *****************
1. DO COMPLETE MULTIPLE ALIGNMENT NOW (Slow / Accurate)
2. Produce guide tree file only
3. do alignment using old guide tree file
4. Toggle Slow Fast pairwise alignments = SLOW
5. Pairwise alignment parameters
6. Multiple alignment parameters
7. Reset gaps between alignments? = ON
8. Toggle screen display = ON
9. Output format ooptions
S. Execute a system command
H. HELP
or press [RETURN] to go back to main menu
Your choice: 1
从这一点看,用户在执行多序列比对时有很多选择的自由,举例来说,在Multiple Alignment Parameters下,用户可以实际空位开放和扩展的罚分,指出在组建辅助树时分歧到什么程度证明可以跳过一个序列,选择一个分值矩阵(BLOSUM或PAM),并且可以选择当一个亲水残基出现(或缺失)在一个特异位点时,是否要执行特异性罚分,如果需要,要罚多少分。在Pairwise Alignment Parameters下,用户可以调整用于慢比对和快比对的罚分和窗口大小。因为在这个例子中,我们没有可以用来指示我们改变比对参数的任何信息,因此只有选择选项1(”Do complete multiple alignment now”)。选择选项1后,程序会在屏幕上显示构件辅助树的过程,然后开始真正的所序列比对。
CLUSTA W结束时,会显示最终的比对结果,上述的例子的结果显示在图8.1中。在比对下方,一些位点被标记为星号或圆点,这些标记分别显示这些残基在序列中是绝对或是高度保守的。如果返回的比对出现太多的空位或是不考虑这些蛋白的任何已知信息,用户就可以再修正参数,然后返回程序,看它是否影响最终的比对。
CLUSTAL W (1.60) multipls sequence alignment
hum-U1A ------MAVPETRPNHTIYINNLNEKIKKDELKKSLYAIFSQFGQILDILVSRSLKMRGQ
mse-U1A MATIATMPVPETRANHTIYINNLNEKIKKDELKKSLYAIFSQFGQILDILVSRIMKMRGQ
xla-U1A ------MSIQEVRPNNTIYINNLNEKIKKDELKKSLYAIFSQFGQILDELVSRNLKMRGQ
dme-U1A ---------MEMLPNQTIYINNLNEKIKKEELKKSLYAIFSQFGQILDIVALKTLKMRGQ
* * *************.****************** . . .*****
hum-U1A AFVIFKEVSSATNALRSMQGFPFYDKPMRIQYAKTDSDIIAKMKGTFVERDRKR-EKRKP
mse-U1A AFVIFKEVTSATNALRSMQGFPFYDKPMRIQYAKTDSDIIAKMKGTYVERDRKR-EKRKP
xla-U1A AFVIFKETSSATNALRSMQGFPFYDKPMRIQYSKTDSDIIAKMKGTFVERDRKRQEKRKV
dme-U1A AFVIFKEIGSASNALRTMQGFPFYDKPMQIAYSKSDSDIVAKIKGTFKERPKKVKPPKPA
******* **.****.***********.* *.*.****.**.***. ** .* .
hum-U1A KSQETPATKKAVQGGGATPVVGAVQGPVPGMPPMTQAPRIMHHMPGQPPYMPPPGMIPPP
mse-U1A KSQETPAAKKAVQGGAAAPVVGAVQ-PVPGMPPMPQAPRIMHHMPGQPPYMPPPGMIPPP
xla-U1A KVPEVQGVKNAMPGAALLPGVPGQMAAMQDMPGMTQAPRMMH-MAGQAPYMHHJPGMPPP
dme-U1A PGTDEKKDKKKK-----------------------------------------------P
. * *
hum-U1A GLAPGQIPPGAMPPQQLMPGQMPPAQPLSENPPNHILFLTNLPEETNELMLSMLFNQFPG
mse-U1A GLAPGQIPPGAMPPQQLMPGQMPPAQPLSENPPNHILELTNLPEETNELMLSMLFNQFPG
xla-U1A GMAPGQMPPGGMPHGQLMPGQMAPMQPISENPPNHILFLTNLPEETNELMLSMLFNQFPG
dme-U1A SSAENSNP-----------------NAQTEQPPNQILFLTNLPEETNEMMLSMLFNQFPG
* . * . .*.***.*************.***********
hum-U1A FKEVRLVPGRHDIAFVEFDNEVQAGAARDALQGFKITQNNAMKISFAKK
mse-U1A FKEVRLVPGRHDIAFVEFDNEVQAGAARDALQGFKITQNNAMKISFAKK
xla-U1A FKEVRLVPGRHDIAFVEFDNEVQAGAARESLQGFKITQSNSMKISFAKK
dme-U1A FKEVRLVPNRHDIAFVEFTTELQSNAAKEALQGFKITPTHAMKITFAKK
********.********* .*.*..**...******* ..***.*

以四种 U1A 序列为一系列的输入序列,使用CLUSTAL W多序列比对程序后得到的比对结果。保守性极高的残基位置由星号标记在序列下方的相应位置,保守性稍低的残基由打点标记出来。
 
MultiAlin
MultAlin方法也是基于用一系列双重比对开始的思想,然后基于双重比对的打分值进行一个分层次的聚类。当序列都分成类后,开始进行多序列比对,计算出多序列比对中的两个序列比对的新值,基于这些新值,重新构建一棵树。这个过程不断进行,直到分值不在上升,此时所序列比对也就结束了。
MultAlin可以在INRA Toulouse的一个环球网点上很容易地执行,要比对的序列按照FASTA的格式被粘贴到一个序列输入框内,然后从一系列下拉菜单中,用户定义适当的参数,比如输出格式,可选的输入格式,引用的分值矩阵以及空位开放和扩展罚分的分值。大多数用户只会根据输入序列的远近关系,选择不同的分值矩阵。然后,序列被提交到服务器上,当多序列比对返回时,会计算一个一致序列并显示在比对的下方。举例来说,如图8.1所示的用CLUSTAL W比对的同样的序列被提交给MultAlin服务器,接受缺省的比对参数,其结果如图8.2所示,在一致序列中,所有序列都匹配的残基相应的位置用此残基的大写字母表示,大多数都匹配的用小写字母表示,同样地,符号!、$、%和#分别表示保守取代,具体含义如图8.2上方的图例。
很明显,用两种方法分别得到的比对结果并不完全一样。主要区别在于CLUSTAL W在果蝇序列中开放了两个长度超过10的空位,而MultAlin只开放了一个长空位,而且,MultAlin可以得到比CLUSTAL W多20个完全相同残基的排队,当然,这并不以为这一种方法比另外一种方法优越,这有要重提本书的一个不便的话题,即从输入序列的性质出发,应用不同的方法会得到不同程度的成功。警慎的用户会选择若干个工具同时使用,并且对最终的比对结果作手工修正以期达到最佳效果。
 

模体和样式编辑本段回目录

前面叙述的方法对于多序列比对极为有用,但是用户必须实现搜集好独立的输入序列,要么通过一系列的BLAST或其它的数据库搜索,要么在实验室里直接作出决定。但是,有太多的方法可以获取一个单独的序列,并且基于此序列中的任何模体或样式,返回所有的蛋白质家族,完成某个特异方法所定义的最佳比对。很多时候,这些方法所揭示的距离关系并非从例行的标准的数据库搜索中轻易获取。在这一部分,我们讨论两种方法,都是搜索特殊数据库以获取序列的模体和样式的,当然也是两种从最少的序列信息中进行蛋白质家族分类的强有力的方法。
ProfileScan
基于经典的头文件分析的Gribskov方法,ProfileScan使用一种称为pfscan的方法寻找一个蛋白质或核酸的查询序列同一个头文件库的相似性,因此,在搜索中需要有两个头文件库:第一个是PROSITE,一个ExPASy数据库,通过使用模体和序列样式(诸如指纹)将生物学意义重大的位点收集分类;第二个是Pfam ,收集了蛋白质结构域家族,与其它收集方法有很大不同的是,最初的蛋白质结构域的比对完全是有手工完成的,而不是依靠自动化的处理方法,正因为这样,Pfam只拥有500多条款目,但这些款目的质量极好。
基于PROSITE和Pfam的搜索可以通过访问ProfileScan的主页完成,她只需要一条简单的输入序列(用文本格式),或者一个标号,比如一个SWISS-PROT ID。用户可以选择搜索的敏感度,选择返回显著的匹配或者所有匹配,甚至包括边界的情况。
BLOCKS
BLOCKS数据库利用了块的概念,对蛋白质家族进行鉴定,而不是只依赖于单个的序列本身。块的思想来源于更加普遍的概念�模体(motif),模体通常是指一段氨基酸序列的保守的伸展,拥有一定的蛋白质功能或者结构。当这些来源于同一家族中的蛋白质中的模体比对时(不引入空位),其结果就是块;块就是指比对,而不是序列本身。很明显,任何一个独立的蛋白都可以包含一个或者更多个的块,对应于它的每一个功能和结构模体。
BLOCKS数据库本身来源于PROSITE的条目。当使用一个感兴趣的序列进行BLOCKS搜索时,查询序列就会同数据库中所有的块在任何可能的位点进行比对,对于每一个比对都会使用位点特异分值矩阵或者PSSM进行打分。PSSM和这本书前面叙述的分值矩阵(例如BLOSUM62)的重大区别在于,其分值考虑到了在给定的位点是否拥有一个匹配以及一个给定氨基酸占据块中的位点的可能性。所有基于这种形式的方法的核心思想都是观测残基占据比对蛋白质块中的一个特异位点的几率,这在本部分的结尾就会变的十分明白。
BLOCKS搜索可以通过访问西雅图的Fred Hutchinson肿瘤研究中心的BLOCKS主页完成,这个网点很直接,允许执行基于序列或者关键词的检索。如果用户在输入时使用了DNA序列,他就可以指明使用哪个遗传密码,搜索哪条链。不管执行搜索的是一个序列还是一个关键词,成功的搜索将会返回相应的块,图8.3显示了一个例子。在这个条目中(一个核内激素受体,称为类固醇指针),头几行按顺序分别标记为ID,AC和DE,给出了这个块代表的家族的缩写,BLOCKS数据库注册码和家族的详细描述;BL行给出了关于组建这个特别的块的原始序列模体的信息:参数width和seqs表示block的宽度(用残基计算),以及这个块中有多少序列数目,接下来是统计学有效性和构成长度的信息;最后是序列列表,只显示出对应于这个特殊模体的序列部分,每一行的开头都是这个序列的SWISS-PROT注册码,第一个残基在整个序列中的位置,然后是序列本身以及基于位点的序列权重,这个权重用100刻度,100表示序列距离这个群体最远;注意到有些序列行中有空行:部分比对被聚集在一起,在每个聚集中,80%的序列残基是相同的。
MoST MoS
模体搜索工具(或者写作MoST),是一个UNIX程序,用来进行数据库搜索以寻找保守的模体。这个方法使用比对序列块(比对块,alignment block),可以容纳任意数目N的序列,每一个长L,所有序列长度必须一致,但是在目前还不能引进空位。这个比对块用来产生一个蛋白质权重矩阵,然后对所有序列进行矩阵扫描,从目标蛋白质数据库开始搜索,对每一个长L的片段通过加和适合的权重矩阵元素得到其分值。如果找到在统计学上显著地匹配于序列块的序列,这些序列也会被加入到序列块中。搜索完一个循环后,权重矩阵必须重新计算,然后重新进行搜索,这个过程反复进行,直到再也找不到统计学意义显著的匹配序列为止,这个过程因而在数据库搜索过程中不断积累新的信息。
在执行MoST时有一个可以设置的参数就是比例R,R表示预期的虚假匹配数目被预测的真实匹配数目。因为MoST搜索预期将会收敛(就是说因为不会再找到新的序列,反复过程将会终止),所以R值的选择十分重要。如果R值太高,搜索就会延伸而不是收敛,最后会引进目标数据库中的所有序列,避免虚假匹配的一个方法就是逐渐增大R值,观察匹配的数量和质量,如果可能出现延伸就放弃增大R值。
MoST命令行形式为:
most database block [method] [seg] [cutoff] [i#%] > outfile
在这里database指明要搜索哪一个数据库;block指明含有输入比对块的文件名(用FASTA格式存储);可选的method参数指明了怎样计算依赖位置的权重矩阵:如果不加指明,缺省值将选择出现一个特殊残基的可能性的Dirichlet分布,选项1引用加权平均(Gribskov方法),选项2引用Bayesian伪记数方法,选项3引用依赖数据的伪记数模型,至于执行中如何选择,在MoST的原始参考书中有详细描述,新用户应该先使用缺省值,检查结果的质量,然后考虑是否改变参数;seg参数指明搜索中是否应用seg过滤算法,seg(缺省)表示开关开,-seg表示开关关;阈值cutoff指明上面描述的比例R,推荐初始值选择在r0.1-r0.5;最后,使用i#%参数将对输入块进行限制,比如,如果指定为i80%,在组中只有相同比列大于80%才被引用,这个选项可以在出现从多个物种来源的相同序列时,有效地放置数据系统的扭曲。
PROBE
有一个最新的比对模型程序叫做PROBE,在某些方面,PROBE与MoST很相似,它们都运用反复计算的策略检测较远关系的序列,但是,从本质上讲,算法的机制是不一样的,所以有必要作进一步的讨论。
在决定哪些序列相关时,PROBE执行一个及物的搜索,如果一个双重搜索发现序列A和B是相关的,另外一个搜索发现序列B和C是相关的,那么A和C就一定相关,即使A和C之间的双重比对没有直接发现它们相关。通过一系列的BLAST搜索,所有这样的联系都被反复演绎出来,直到再不会发现新的序列。在这样一系列相关序列组成的集合上,将会进行一系列的比对,反复比对,直到比对不再改善。这时,将会进行下一轮的数据库搜索,应用上一轮的最佳比对,寻找在上一轮中被忽略的相关序列。PROBE程序反复操作这一过程,直到搜索收敛为止。
PROBE和MoST之间的一个很重要的区别就在于PROBE在搜索开始时只需要一个序列作为“种子”,即使可以使用一个家族的序列,而在MoST程序中,必须输入一个预先准备好的不包含空位的比对。因为无法保证用机器寻找到的比对比手工的比对质量要好(很多时候恰恰相反),在进行MoST搜索时必然会携带手工计算比对时的位点偏向因素。MoST和PROBE处理输入的方法是不一样的,MoST一次必须处理一个比对块,而PROBE按照反复搜索中的发现把输入序列分成多个块,在这里,用户要决定是否维持块的完整以及块是否可以进一步分成更小的组成单位,作出决定时最好依据它们的生物学功能。最后,MoST是一个贪婪的算法,下一轮搜索中发现的新序列一旦加入就不会被剔除,于是一个虚假的匹配很可能在接下来的搜索中不断蔓延,很可能引入更多的虚假匹配;而PROBE使用一个“jack knife”的程序会自动消除这样不相关的序列,就是说,推定的虚假匹配会被从数据中取消,然后重新搜索数据库,如果这个序列确实相关的话,它会在以后重新被加入到数据中去。
PROBE程序的UNIX发行版本的命令行采用这个形式:
probe fastafile database –s<int> [options] > outfile
在这里,fastafile是进行搜索的种子序列文件,采用FASTA格式存储;database是要搜索的目标数据库;跟在-s标志后面的数字是进行搜索的随机种子,然后是打分阈值选项,可以是任意一个数字,再后面是返回序列的最大数目,等等。程序执行一次需要相当长的时间,但是得到的输出结果是相当值得的。图8.6显示了一个PROBE得到的输出文件,种子序列是amphoterin,一种和高度流动组蛋白(HMG-1)相关的DNA-捆绑蛋白;最后找到了两个块,共包含50多个残基,每个块都是PROBE用统计学计算出来的最佳比对。对于每个序列,属于块部分的序列残基数目都被显示出来,后面跟着一个gi标记符以及这个条目的统计值。PROBE产生的输出文件包含残基频率信息,以及内容信息,统计信息和”jack knife”程序剔除的序列列表。
 

演示方法编辑本段回目录

上述的比对方法对于寻找最佳比对这一点都很严格,但是它们的输出结果的阅读质量都不是太好,所以有必要从这些程序中得到输出结果,然后把结果输出到另外一些软件中去,使得多序列比对的结果可读性更好一些。这些演示方法通常都会让使用者更加容易地识别所有序列中精巧的序列样式,比通常显示的“一致序列”效果还好。
MacBoxShade
MacBoxShade(或者简写为MacBox),是VMS/UNIX应用程序BoxShade的一个Macintosh版本,它提供一个很简单的机制使得多序列比对结果形成一定的格式。MacBox只能读GCG MSF格式的比对文件,所以必须用其他程序(例如ReadSeq)把序列文件转化为它可以阅读的形式。虽然只支持一种输入格式,但是再输出上就有较多的选项了:这包括PostScript,支持PostScript打印机或者用PostScript形式浏览;还有PICT,缺省的Macintosh格式,可以输入到字处理或者图形处理软件中去。通过大量的简单对话框,用户可以指定色彩方案,给残基记数的形式,以及与计算一致序列有关的选项。
Sims和Groups是两个重要的对话框,控制了如何计算一致序列,两者的区别很细微但是十分重要。Sims对话框定义了什么样的残基之间相互相似,并且关系并非相反;Groups对话框允许确认离散的群体,再这些群体中,所有同一个群体中的残基都认为是相同的,就是说,如果一个群体被定义为拥有lysine,arginine和histidine,那么在一个比对中给定位点出现任何一个这样的残基都会被认为是匹配的。检测这两个对话框十分重要,因为用户希望用缺省值计算一致序列。
为了描述MacBox的使用,一定量的组蛋白H1序列和从酵母中得到的H1经过比对,并且被转化为MSF格式,这个MSF序列文件被MacBox打开,并且要求程序通过普通对话框打印一致序列。还是在同一个对话框中,显示一致序列的方法被改为BLU,意思是在一个给定位点,非保守位点用空格(blank)表示,保守残基用小写字母表示,相同残基用大写字母表示。要真正运行比对程序,可以从“Do it!”下拉菜单中选择“Display PICT”,会产生如图8.7的窗口,一致序列的表示法可以在普通对话框中改变成用户期望的形式。用户可以不象这里所作的根据所有序列的相似性留下阴影的形式,而是可以指定比对中的一个单个序列,然后根据其他序列同这个序列相似性的程度留下阴影。
对于没有Macintosh或者UNIX机器的用户来说,原始的BoxShade程序可以通过互联网访问,通过下拉菜单而不是上述的对话框。当然,那样是不可能选择色彩方案或者选择如何显示一个一致序列了,但是可以指定一致序列基于字母还是符号。
ALSCRIPT
ALSCRIPT是一个基于UNIX或者PC机平台的程序,它可以灵活地把多序列比对的输出结果格式化为PostScript格式,然后比对就可以在PostScript打印机上打印或者用PostScript浏览。ALSCRIPT的输入必须是如下三种格式之一:一个块文件,CLUSTAL W格式或者GCG格式;使用CLUS2BLC和MSF2BLC程序可以把其他格式转化为ALSCRIPT可以阅读的格式,这两个程序都在ALSCRIPT程序包中。ALSCRIPT在报告比对时提供了很好的灵活性:用户可以指定字体,部分比对的方框,选择阴影,增加文本识别,增加符号和行数以及颜色的选择。虽然ALSCRIPT本身不能产生或者编辑比对,但是它可以计算出一致序列并且用适当的方式显示匹配于一致序列的残基。正确使用程序可以揭示序列中的某些特征,比如电荷分布或者序列信号。

附件列表


→如果您认为本词条还有待完善,请 编辑词条

上一篇数据库中的序列相似性搜索 下一篇系统发育分析

词条内容仅供参考,如果您需要解决具体问题
(尤其在法律、医学等领域),建议您咨询相关领域专业人士。
0

收藏到:  

词条信息

已删除
此用户已删除
词条创建者

相关词条