3.3 Predict with Hidden Markov Model
3.3 用隐马尔可夫模型建立预测模型—— Predict with Hidden Markov Model
符号->状态路径
对每个可能的状态路径计算其产生观测符号序列的可能性,其中概率最大的路径,也就是最可能产生这个串的路径。参考:https://blog.csdn.net/GUET_DM_LQ/article/details/106244074
引例 The Most Simple Gene Predictor(MSGP)
Given a stretch of genomic sequence, where are the coding regions and where are noncoding regions?
给定一段基因序列,预测其中的编码区
ACCCTAACCCTAACCCTCGCGGTACCCTCAGCCCGAAAAAATCG
解:
-
区分不能直接观测的状态和可以直接观测到的符号
可观测到 —— 给定的基因组序列
不可观测到 —— 编码和非编码
-
画出状态转换图 转移概率矩阵(Transition Probability)
-
生成概率(Emission Probability) (在编码条件下和非编码条件下,A,T,G,C出现的概率,这个需要根据大量的统计数据集进行统计分析或者预测分析) 参考:https://blog.csdn.net/leianuo123/article/details/115832259
-
训练模型(Training the model)
-
What we need to train?
— Transition Probabilities between states 状态间的转移概率
— Emission Probabilities for each state 每个状态的生成概率
-
Estimate Probabilities from known "Training set”
从已知的 "训练集 "估算概率
— An annotated genomic region, with coding/noncoding sequences labeled.
一个有注释的基因组区域,标有编码/非编码序列。序列要比较长,来保证充足的数据,来得到上面矩阵中的数据即编码和非编码的概率以及在编码和非编码的情况下的A,T,C,G的概率。参考:https://blog.csdn.net/leianuo123/article/details/115832259
已知训练集的相关数据
-
根据这些数据来对一个未知的给定基因组序列反推出最可能的状态路径(概率最大的状态路径)
利用动态规划算法写出迭代公式以及最后的终止点公式
-
算 用对数 —— 乘法太慢 乘多了
-
-
Testing Sequence: CGAAAAAATCG
应用:5’剪切位点的预测
Related Issues not found
Please contact @JoyceLiang-sudo to initialize the comment