3.1 From States to Markov Chains
3.1 从状态到马尔可夫链
马尔可夫链(Markov Chain)
A Markov chain describes a discrete stochastic process at successive times. The transitions from one state to all other states, including itself, are governed by a probability distribution
马尔科夫链描述了一个连续时间的离散随机过程。从一个状态到所有其他状态的转换,包括其本身,都由一个概率分布所支配
t时刻状态的概率分布由且仅由前有限个m时刻状态的概率分布来决定
——M阶马尔可夫链
A chain of random variables in which the next one depends (only) on the current one
一条随机变量链,其中下一个随机变量(仅)取决于当前随机变量。
当前的状态与且只与前一个状态相关 —— 一阶马尔可夫链
转移概率(Transition Probability) ...
2.6 BLAST
2.6 BLAST算法
Intro
Application
思路 —— BLAST Ideas: Seeding‐and‐extending:种子-扩展
Find matches (seed) between the query and subject;寻找查询序列和目标序列之间的匹配(种子即高度相似的序列片段)
Extend seed into High Scoring Segment Pairs (HSPs);将种子扩展成高分段对(HSPs)
– Run Smith‐Waterman algorithm on the specified region only.特定区域
Assess the reliability of the alignment.计算统计显著性,评估校准的可靠性
Seeding
For a given word length w (usually 3 for proteins and 11 for nucleotides), slicing the query sequence into multiple
对于给定的单词长度w(通常3是 ...
2.5 Sequence Database
2.5 序列数据库
序列数据库检索
原理
Step
2.4 Supplementary materials
2.4 补充材料 同源、相似性、相似性矩阵、点阵图
S1: Alignment with Affine Gap Penalty——对于空位罚分的改进
第一节 罚分:区分 opening和 extending 并对此线性组合
第二三节 罚分:不区分opening 和extending 统一用 d
这一节 分三个状态M、X、Y
将之前的罚分分成了d和e两种,如果是第一个gap,罚分就为d,如果是接着前面的gap后面还是gap,那后面那个gap的罚分就是e,故叫做open gap即开场,叫做extension gap即延续
例:
第一种
当前的是Xi对比上Yj
1、如果前一个也是match对比成功,那就是前面的分加上替换矩阵对应的分
2、如果前一个是Xi对比上空位,那就是用前面X的分加上替换矩阵对应的分
3、如果前一个是Yj对比上空位,那就是用前面X的分加上替换矩阵对应的分
最终结果取这三者中的最大值
第二种
当前的是Xi对比上空位即gap
1、如果前一个是match对比成功,那就是当前空位是open gap 开头的gap 即罚分为d
2、如果前一个是Xi对比上空位,那 ...
2.3 From Global To Local
2.3 从全局比对到局部比对 From Global To Local
为什么要局部比对?
全局比对——对序列的全部残基进行比对
早期在蛋白质序列比对中有广泛的应用
后面发现造成的问题:
发现功能相关的蛋白质之间,虽然可能在整体序列上相差甚远,却常常会有相同的功能域,这些序列片段能够独立发挥特定的生物学功能,但却在不同蛋白质之间相当保守,仅靠全局比对算法显然是无法发现这些片段的
70年代内含子的发现,使得在做核酸水平的序列比对时必须要能正确处理内含子导致的大片段的差异
80年代初,开始认识到要有方法去认识到局部相似的序列,换句话说,我们要做local alignment 局部比对
局部比对算法
局部比对和全局比对的区别
每步迭代的时候给分数加入了一个下限
负数都变成了0
大的值之间的竞争
2.2 Global Comparison using Dynamic Programming
2.2 利用动态规划进行全局比对
输入输出
比对方法
穷举法(理论可行,实践难):
动态规划法
最好的比对 = 之前最好的比对 + 当前最好的比对
全局最优解 = 局部最优解之和
Step
Formula
例:
边边的格子
左方和上方对应的格子 0 + -5 = -5 -5 + -5 = -10 -10 + -5 = -15
中间的格子
三个来源:
1、左方格子 + -5 = -10
2、上方格子 + -5 = -10
3、 斜上方格子 + 替换矩阵中的AA对应分数 = 2
取最大值为2 并标出来源指向箭头
中间的格子
问:为啥会有两个箭头指向3?
答:说明有两个来源
左方格子 + -5 = -3
上方格子 + -5 = -15
斜上方格子 + 2 = -3
从最后回溯得到最优比对结果
向上向左的箭头对应着空即 ‘-’,斜对角的箭头就对应着表格里的横纵双方
2.1 Basic Concepts in Sequence Alignment
2.1 序列比对中的基本概念
引言
正确使用计算机工具的作用
避免风险
BDMA
2.1.1 序列比对的作用和重要性
序列比对的重要性
序列比对的目的——生物角度
根据序列之间的功能或演化关系来检测生物之间的相似性
序列比对工具网站——Pairwise Sequnence Alignment
Step 1 输入蛋白质序列
Step 2 设置参数
Step 3 提交任务
Step 4 分析结果
比较两个残基之间的相似程度
💡 ‘|’ :相同
**‘:’:比较相似 **
**‘.’:一点都不相似 **
</aside>
衡量标准:替换矩阵
特点:
**Symmetry **
得分结果是对称的,跟方向无关
S ➡️ T 跟 T ➡️ S 的得分是一样的
Context-insensitive
得分结果与上下文无关
各个残基之间是独立的
只与两个残基之间的关系有关
空位 序列片段插入与删除 对应着罚分
第二个空位 GA ➡️ - - 1个open gap 10’ + 1个extend gap 0 ...
1 Introduction and History
1.1 什么是生物信息学
引言 生命的奥妙
基因组
生命之树
解码基因组
机遇与挑战
定义
生物角度
信息角度
1.2 生物信息学历史
分子生物学角度
计算机发展角度
生物信息的角度
journals
1.3 中国的生物信息学
Alphafold2
Alphafold2
Title: Highly accurate protein structure prediction with AlphaFold
Authors: Jumper, John
DOI: https://doi.org/10.1038/s41586-021-03819-2
Date: October 11, 2022
Finish time: 2022/10/15
Future: 应用于别的很多领域,药物靶点啥的
Meaning: 解决了生物学中存在了50年的难题,二维氨基酸序列预测3D蛋白质结构
Theoretical/Conceptual Framework: Transformer
Year: 2021
关键词: AI,Bioinformatics
期刊杂志: nature2021
Reference: 【AlphaFold 2 论文精读【论文精读】https://www.bilibili.com/video/BV1oR4y1K7Xr?vd_source=5ec85dfc5468a21a485b1b1d4d271219
标题&作者
Highly ac ...
搭建Docker私有仓库
Harbor简介
VMware开源的企业级Registry项目Harbor,以Docker公司开源的registry 为基础,提供了管理UI, 基于角色的访问控制(Role Based Access Control),AD/LDAP集成、以及审计日志(Audit logging) 等企业用户需求的功能,同时还原生支持中文,主要特点:
基于角色的访问控制 - 用户与 Docker 镜像仓库通过“项目”进行组织管理,一个用户可以对多个镜像仓库在同一命名空间(project)里有不同的权限。
镜像复制 - 镜像可以在多个 Registry 实例中复制(同步)。尤其适合于负载均衡,高可用,混合云和多云的场景。
图形化用户界面 - 用户可以通过浏览器来浏览,检索当前 Docker 镜像仓库,管理项目和命名空间。
AD/LDAP 支持 - Harbor 可以集成企业内部已有的 AD/LDAP,用于鉴权认证管理。
审计管理 - 所有针对镜像仓库的操作都可以被记录追溯,用于审计管理。
国际化 - 已拥有英文、中文、德文、日文和俄文的本地化版本。更多的语言将会添加进来。
RESTful API - ...