你好,欢迎进入江苏优软数字科技有限公司官网!

诚信、勤奋、创新、卓越

友好定价、专业客服支持、正版软件一站式服务提供

13262879759

工作日:9:00-22:00

DNA与蛋白质的序列比对原理

发布时间:2023-06-05

浏览次数:0

ncbi blast序列比对_dnastar序列比对_dnastar序列比对说明

序列比对

在研究 DNA 或蛋白质序列时,主要关注的是它包含的遗传信息; 在研究两个或多个 DNA 或蛋白质序列时,主要关注的是不同序列之间的差异和联系。 在生物信息学中,生物大分子的序列比对是一项非常基础的工作。

目前关于进化的基本思想是生物结构由简单到复杂,物种由少到多。 在生命进化过程中,DNA可能会发生突变(核苷酸替换)、插入、缺失等变化,导致不同物种的DNA序列出现异同。 ()的主要思想是使用特定的算法找出两个或多个序列之间形成最大相似度得分的空间插入和序列比对方案。 主要要解决的问题是DNA序列中的插入和缺失。 种类。 根据比对的序列数,可分为双序列比对( )和多序列比对( )。 序列比对大多基于动态规划算法(),明确序列中的保守和非保守区域,分析序列的进化趋势。

描述序列之间关系的概念有同源性()、相似性()、距离()。 同源性是一个定性的概念,意味着不同的序列有一个共同的进化祖先; 相似度和距离都是数量概念,表示两个序列之间的相似程度和差异程度。 如果两个序列是同源的,那么它们就具有较高的相似性,而由于趋同进化的存在(),较高的相似性不一定是同源的。

同源性可分为垂直同源性( )和水平同源性( )dnastar序列比对,垂直同源性是指共同祖先的不同进化分支,而水平同源性主要是基因组复制形成的,比如植物α球蛋白和β球蛋白的同源关系看起来像这样:

ncbi blast序列比对_dnastar序列比对说明_dnastar序列比对

旁系同源物一般具有相同或相似的功能,但直系同源物则不一定:由于缺乏自然选择的原始力量,复制的基因拷贝可以越来越自由地发生变异dnastar序列比对,从而获得新的功能。

相似度得分和距离是一对相反的变量,定量描述序列相似度和距离。 相似度分数是在一定的评分规则下,两个序列的对应字符的函数。 通常,相同的字符(即核苷酸或多肽)越多,得分越高,如下图:

dnastar序列比对_ncbi blast序列比对_dnastar序列比对说明

但是在进化的过程中,不仅有核苷酸的替换,还有插入、删除、重复等,所以相似度描述序列的主要思想是通过在序列:

dnastar序列比对_dnastar序列比对说明_ncbi blast序列比对

其中,s1'、s2'...sk'为插入空格得到的序列s1、s2...sk。

编辑距离的大小取决于两个序列对应位置不同字符的个数。 不同的字符越多,值越大。 例如,汉明距离()估计如下:

dnastar序列比对说明_dnastar序列比对_ncbi blast序列比对

距离描述序列的主要思想是通过字符替换将一个序列转换成另一个序列。 每次更换都记录为成本(cost)。 考虑到插入间隙的存在,这些操作也可以扩展为字符替换和空格插入。 ,删除空格,所以描述多个序列之间的距离是将这个序列转化为一个公共序列所需的最小代价:

dnastar序列比对_ncbi blast序列比对_dnastar序列比对说明

如果不计算插入和删除的空格,只估算相应字符的替换成本,就是编辑距离(edit)。

结尾

如有侵权请联系删除!

13262879759

微信二维码