基于HMM的基因识别并行计算(1)
2015-10-25 01:06
导读:计算机应用论文论文,基于HMM的基因识别并行计算(1)应该怎么写,有什么格式要求,科教论文网提供的这篇文章是一个很好的范例:
摘 要 分析了传统的串行基因分析方法的局限性,阐述了基于隐
摘 要 分析了传统的串行基因分析方法的局限性,阐述了基于隐马尔科夫模型的基因识别方法和原理,最后给出了基于隐马尔科夫模型的并行算法并进行了并行效果分析,指出了并行计算在生物信息学领域的广阔前景及重要意义。 关键词 基因识别; HMM; 并行计算; 生物信息学1 引言 20世纪90年代以来,伴随着各种基因组测序计划的展开和分子结构测定技术的突破,数以百计的
生物学数据库如雨后春笋般迅速出现和成长。如何利用这些不断爆炸性增长的有关生物分子的原始数据,有效解决基因识别问题显得越来越迫切。最初的基因分析方法是进行简单的核苷酸统计,而后加上剪切保守位点的检测。以后采用了人工神经网络、隐马尔科夫模型(HMM)[1,2]等先进的信息处理和分析技术,提高基因识别的准确率。但由于生物信息数据量巨大,传统的串行算法往往无法处理或难以在满意的时间内得到结果。本文针对基因序列的识别,讨论隐马尔科夫模型分析算法的并行算法设计和并行效果分析。2 隐马尔科夫模型法 隐马尔科夫模型[3](Hidden Markov Models,HMM)是一种概率论模型,这种方法已经成功应用于多个领域,如语音识别、
光学字符识别等。HMM在生物信息学领域中也有着重要的应用,如序列分析、基因识别等。目前,基因识别的HMM方法也大致可以分为两类,一类为按照内容搜索的方法,通过核苷酸和三联密码子等在编码区的分布规律来界定蛋白质的编码区;另一类为按照信号搜索的方法,通过编码区周围的信号界定蛋白质编码区。2.1 马尔科夫链 考虑只取有限个或可数个状态的随机过程{Xn,n=0,1,2,…},假设对一切状态i0,i1,…,in-1,i,j和一切n≥0,有P{Xn 1=j | Xn=i,Xn-1=in-1,…,X1=i1,X0=i0} = P{Xn 1=j | Xn=i}成立,则称此随机过程为离散状态马尔科夫链。简单的说,就是系统未来的状态仅依赖于当前状态。一个马尔科夫链的概率分布完全由它的初始分布P(X0)与转移矩阵P=(
pij)决定。2.2 HMM基本原理 隐马尔科夫模型HMM是由马尔科夫链发展扩充而来的一种随机模型。HMM可以被理解为一个双重随机过程,一个是不可观察的(隐含的)状态变化序列,另一个是由该不可观察的状态产生的可观察符号序列。隐马尔科夫模型形式描述如下:一个HMM模型是一个三元组M=(A,S,Q),其中A是字母表,S是有限状态集合,每个状态可以释放字母表中的字符。Q为概率集合,包括两个部分:一是状态转换概率
fkl,
k,l∈S,表示从状态
k转化到状态
l的概率;二是字符释放概率,记为e
k(
b) (
k∈S,
b∈A),表示在状态
k下释放出字符
b的概率。令路径Π=(
π1,π2,…,πL )是模型M的一个相继状态序列,X=(x
1,x
2,…,x
L)是一个字符序列,按下述方式定义状态转换概率和字符释放概率:
fkl = p(πi = l|πi-1 = k)ek(b) = p(xi=b|πi= k) 对于给定的路径Π,可以按下面的公式计算出产生序列X的概率: P(X|Π)=
fπ0,π1 eπi (xi)fπi,πi 1 这里,令
π0为起始状态,
πi 1为终止状态。 在表示或分析HMM模型时,用方框表示各个状态,方框之间的连线表示状态转换。对于每个状态,详细地描述各个字符的释放概率,而对于状态之间的转换,也给出相应转换动作发生的概率,即状态转换概率。表示DNA序列的HMM如图1所示。 对生物序列而言,HMM的字符就是20个字母的氨基酸或4个字母的核苷酸。编码蛋白质的原始DNA序列,在生物的进化过程中会受到自然环境和各种因素的影响,使翻译出的蛋白质序列[4]经历突变、遗失或引入外援序列等变化,最后按不同的进化路径分化,形成多种功能相近的蛋白质。因此,可以把这些蛋白质看作由一个基本蛋白质序列经过插入、删除或替换了某些氨基酸残基而形成。这个过程可以用HMM来表示。一个训练好的模型可以代表有共同特征的蛋白质序列。HMM用于分析蛋白质序列的原理是分析蛋白质产共2页: 1 [2] 下一页 论文出处(作者):