2.4 补充材料 同源、相似性、相似性矩阵、点阵图

S1: Alignment with Affine Gap Penalty——对于空位罚分的改进

第一节 罚分:区分 opening和 extending 并对此线性组合

Untitled

第二三节 罚分:不区分opening 和extending 统一用 d

Untitled

这一节 分三个状态M、X、Y

Untitled

将之前的罚分分成了d和e两种,如果是第一个gap,罚分就为d,如果是接着前面的gap后面还是gap,那后面那个gap的罚分就是e,故叫做open gap即开场,叫做extension gap即延续

Untitled Untitled

例:

  • 第一种

    Untitled

    当前的是Xi对比上Yj

    1、如果前一个也是match对比成功,那就是前面的分加上替换矩阵对应的分

    2、如果前一个是Xi对比上空位,那就是用前面X的分加上替换矩阵对应的分

    3、如果前一个是Yj对比上空位,那就是用前面X的分加上替换矩阵对应的分
    最终结果取这三者中的最大值

  • 第二种

    Untitled

    当前的是Xi对比上空位即gap

    1、如果前一个是match对比成功,那就是当前空位是open gap 开头的gap 即罚分为d

    2、如果前一个是Xi对比上空位,那就是当前空位是extension gap 是延续上一个gap的gap 即罚分为e

  • 第三种

    Untitled

    当前的是Yj对比上空位即gap

    1、如果前一个是match对比成功,那就是当前空位是open gap 开头的gap 即罚分为d

    2、如果前一个是Yj对比上空位,那就是当前空位是extension gap 是延续上一个gap的gap 即罚分为e

时间复杂度分析

Untitled

从穷举的指数级别降低到了平方级别

S2 解释几种概念

Untitled
  • Homology & Similarity

    • Homology

      — derived from a common ancestor 来源于共同祖先

      — ortholog: derived from speciation 直系同源 不同物种中的两个序列来自历史上的共同祖先的同一个序列

      Untitled

      — paralog: derived from duplication 旁系同源 同一物种中的两个序列在历史上来自同一个序列

      Untitled
  • Similarity Matrix——相似矩阵

    • For nucleotides,

      • usually only distinguish match / mismatch (identity matrix) for sequence alignment
      • but a more complicated substitution model is used for phylogeny reconstruction
      Untitled
    • For amino acids

      • PAM (1978, Margaret Dayhoff)

        • Two sequnences are 1 PAM apart if they differ in 1% of the residues

        • 1 PAM = one step of evolution

          Untitled Untitled Untitled
      • BLOSUM (1992, Steven Henikoff & Jorja Henikoff)

        • computed by looking at “blocks” of conserved sequences found in multiple protein alignments
        Untitled
  • Dot Matrix

    Untitled Untitled