3.3 用隐马尔可夫模型建立预测模型—— Predict with Hidden Markov Model

Untitled

符号->状态路径

对每个可能的状态路径计算其产生观测符号序列的可能性,其中概率最大的路径,也就是最可能产生这个串的路径。参考:https://blog.csdn.net/GUET_DM_LQ/article/details/106244074

引例 The Most Simple Gene Predictor(MSGP)

​ Given a stretch of genomic sequence, where are the coding regions and where are noncoding regions?

给定一段基因序列,预测其中的编码区

ACCCTAACCCTAACCCTCGCGGTACCCTCAGCCCGAAAAAATCG

解:

  1. 区分不能直接观测的状态和可以直接观测到的符号

    可观测到 —— 给定的基因组序列

    不可观测到 —— 编码和非编码

    Untitled
  2. 画出状态转换图 转移概率矩阵(Transition Probability)

    Untitled
  3. 生成概率(Emission Probability) (在编码条件下和非编码条件下,A,T,G,C出现的概率,这个需要根据大量的统计数据集进行统计分析或者预测分析) 参考:https://blog.csdn.net/leianuo123/article/details/115832259

    Untitled
  4. 训练模型(Training the model)

    • What we need to train?

      — Transition Probabilities between states 状态间的转移概率

      — Emission Probabilities for each state 每个状态的生成概率

    • Estimate Probabilities from known "Training set”

      从已知的 "训练集 "估算概率

      — An annotated genomic region, with coding/noncoding sequences labeled.

      一个有注释的基因组区域,标有编码/非编码序列。序列要比较长,来保证充足的数据,来得到上面矩阵中的数据即编码和非编码的概率以及在编码和非编码的情况下的A,T,C,G的概率。参考:https://blog.csdn.net/leianuo123/article/details/115832259

      Untitled

      已知训练集的相关数据

      Untitled
    • 根据这些数据来对一个未知的给定基因组序列反推出最可能的状态路径(概率最大的状态路径)

      Untitled

      利用动态规划算法写出迭代公式以及最后的终止点公式

      Untitled
    • 算 用对数 —— 乘法太慢 乘多了

      Untitled
  5. Testing Sequence: CGAAAAAATCG

    Untitled Untitled
    • n、c 红色数字: 根据已经注明编码非编码的核苷酸序列计算而来的,-0.097是非编码转换为非编码的概率,-0.699是非编码转换为编码的概率

    • n ➡️ C -0.097 + -0.523 = -0.62 相加是因为log(a*b) = log a + log b

      n ➡️ G -0.62 + -0.097 + -0.523 = -1.24 and -1.40 + -0.398 + -0.523 = -2.321

    • 找到最’大‘值-7.774进行回溯

      Untitled

应用:5’剪切位点的预测

Untitled