1.4 The Chemistry of DNA Replication
1.4 DNA复制的化学过程——The Chemistry of DNA Replication
DNA复制的底物——引物-模版接头(primer:template junction——PTJ)
引物在3‘端有一个未被占领的羟基(OH),羟基进攻脱氧核苷三磷酸(dNTP)上的$\alpha$-磷酸基,并脱去一分子焦磷酸盐(pyrophosphate),从而完成这个催化反应。只有在这个碱基与模版上的碱基正确配对时,反应才会发生
为什么要用三磷酸盐?而不是二磷酸盐之类的
这里提到的所有前体都是三磷酸盐,一个重要原因是,第二个反应分解了两个磷酸互相结合成的焦磷酸盐,得到两分子磷酸,这样就推动了反应,从而使这个反应变得不可逆
在焦磷酸酶(pyrophosphotase)作用下,这个反应的$\Delta G$=-7千卡,并且不可逆,没有焦磷酸酶的话,$\Delta G$=-3.5千卡。为了确保这个反应正向进行,细胞不仅释放焦磷酸酶,而且迅速捕获焦磷酸,并将它分解为两分子磷酸
反应是怎样被催化的?
DNA聚合酶(DNA polymerase)催化了反应,它需要什么条件呢?
需要 ...
1.3 DNA Replication
1.3 DNA复制(replication)
细胞需要进行DNA复制的根本原因:
为了复制细胞的基因组,基因组包含了所有细胞功能的蓝本,一个细胞所有的基本活动都由基因组控制
复制过程发生了错误
积极:可能会产生一种有利于生存的新特质,这会以某种频率发生
坏的:可能从直接致死,生物不能继续生长到产生癌症之类或使生物生长能力下降
一般来说出现不好结果的可能性要大于好的结果,我们希望这个复制过程能尽可能精确
DNA复制的特征
速度很快,一个普通的DNA复制机器而言,合成速度在100-1000 bp/sec,bp-base pair 碱基对
完备的(complete),除了少数例外,基因组中的每个碱基对都会被复制,端粒的复制是一个存在碱基对不被复制的例子
精确的(accurate),通常情况下,每合成100亿个碱基对,复制机器才会出现一次错误。
人的基因组有30亿个碱基对,这意味着每三次细胞分裂就有一个复制错误,但是100亿个碱基对中的大部分都是没有编码功能的,大部分都不必完全正确,但如果复制错误出现在一个编码区的中间,它会改变编码出来的氨基酸和蛋白质,这就会出现问题了
...
1.2 DNA Structure
1.2 DNA结构
DNA:deoxyribonucleic acid 脱氧核糖核酸
dsDNA
在细胞内部,最常会看到双链DNA,两条链缠绕在一起形成双螺旋,DNA双螺旋最常见的形式也被称为B型DNA
双螺旋解开
内部化学结构
每一条链都是多聚核苷酸链
意味着DNA链由许多核苷酸(nucleotide)单位组成,一个核苷酸有三部分
一个磷酸基团(phosphate)、一个戊糖(sugar)、四种含氮碱基之一
腺嘌呤(adenine)
鸟嘌呤(guanine)
胸腺嘧啶(thymine)
胞嘧啶(cytosine)
含氮碱基总是连接在戊糖的1’碳上,5’碳和相邻戊糖的3’碳之间有一个磷酸基团
戊糖为脱氧核糖,因为在2’碳位脱去了一个核糖中本该存在的羟基,DNA的核苷酸叫做脱氧核糖核苷酸
DNA中的核苷酸通过磷酸二酯键相互连接,核苷酸上的磷酸基团,连接上邻位核苷酸的3’碳
脱氧核糖和磷酸基团组成了DNA骨架
碳原子的编号对于描述DNA 5’到3’的方向性至关重要
DNA内部两条链,顶部链5‘碳都在左边,3’碳都在右边,方向 ...
1 Introduction
1.1 介绍
第一部分内容包括基因组维护的调控,染色体复制、修复和重组
细胞怎样复制它们的基因组?
出现错误或DNA损伤时,细胞怎样修复DNA?
在DNA断裂反应中或减数分裂时,它们是怎样重组DNA的?
介绍这个过程的概念与步骤,从DNA复制开始,细胞怎样完成这个过程?具体的分子机制是什么?每个过程中,讨论所需的蛋白质、RNA和DNA,并解释这些酶与核酸的协同作用及调控,以确保它们正常发挥功能,DNA复制和修复过程是相当保守的
要关注科学家们如何探索这些机制
4.4 Supplementary materials
4.4 关于回帖、变异鉴定的补充材料
BWA & BWT algorithm
介绍回帖reads的参考基因组的程序BWA所使用的BWT的压缩和比对算法
The compression algorithm used in BWA
Lossless compression
Sort and transform the char matrix
Variant caller
— samtools
— GATK
Demonstration
4.3 Analysis and Demonstration
4.3 序列回帖和变异鉴定分析与演示
Demonstration of reads mapping and variants calling
从原始数据出发,最终寻找到我们感兴趣的突变位点
用bwa工具将fastq文件比对到基因组上
fastq文件
人类的线粒体基因组
bwa分析
将线粒体基因组进行索引
将分别对高通量测序得到的双端的Reads进行mapping
查看比对生成的文件
对bam文件进行排序索引
使用RealignerTargetCreator工具寻找需要alignment的位点
使用IndelRealigner来对bam文件进行真正的处理
来对测序得到的进行调整
需要提供一个用于训练的已知的变异位点的测序数据集合
来生成最终的test.final.bam文件
对比对结果进行varient calling工作
另一种varient calling方法
4.2 Sequence Reply and Mutation Identification
4.2 序列回帖和变异鉴定 NGS:Reads Mapping
Reads Mapping 是啥?
是指测序得到的DNA片段也就是Reads,定位到基因组上,通过Reads Mapping 在克服了深度测序产生的Reads过短导致的技术困难的同时,也方便利用基因组位置作为桥梁来将测序得到的数据与前期研究产生的注释结果进行有机的整合
作用
往往被作为深度测序数据分析的第一步,其质量的好坏以及速度的快慢都会对后续的分析产生影响
Mapping: Input Data
本质上还是双序列比对问题
Reference Genome
— Nucleotide
— Length: Hundreds of Mb per chromosome
— ~3Gb in total(for human genome)
Reads
— Nucleotide, with various qualities(relatively high error rate 1e-2 ~ 1e-5)
— Length: 36~80 bp per read
— Hundreds of Gbs per run
...
4.1 Next Generation Sequencing
4.1 新一代测序——Next Generation Sequencing(NGS): Reads Mapping
From Sequencing to NGS
1977 测序方法
新一代测序方法 能得到更深的测序深度
Read:A short DNA fragment which is read out by sequencer
由测序仪读出的一个短的DNA片段
Quality:Given p = the probability of a base calling is wrong(碱基调用错误的概率), its Quality Score can be written as
质量分数小于20,错误率大于0.01的碱基,认为是不可靠的,如果这样的碱基超过reads的20%,就考虑将此条reads丢弃掉
Paired-End Reads 同时对序列两端较长的片段进行测序
新一代测序的出现,促进了很多的相关领域的研究
RNA-Seq:Explore the transcriptome
利用深度测序来研究转录组的技术——能让研究人员快速确定转录组
3.3 Predict with Hidden Markov Model
3.3 用隐马尔可夫模型建立预测模型—— Predict with Hidden Markov Model
符号->状态路径
对每个可能的状态路径计算其产生观测符号序列的可能性,其中概率最大的路径,也就是最可能产生这个串的路径。参考:https://blog.csdn.net/GUET_DM_LQ/article/details/106244074
引例 The Most Simple Gene Predictor(MSGP)
Given a stretch of genomic sequence, where are the coding regions and where are noncoding regions?
给定一段基因序列,预测其中的编码区
ACCCTAACCCTAACCCTCGCGGTACCCTCAGCCCGAAAAAATCG
解:
区分不能直接观测的状态和可以直接观测到的符号
可观测到 —— 给定的基因组序列
不可观测到 —— 编码和非编码
画出状态转换图 转移概率矩阵(Transition Probability)
生成概率(Em ...
3.2 Hidden Markov Model
3.2 隐马尔可夫模型(Hidden Markov Model)
引言
之前
存在的问题:仅靠👆还不足以真正完成序列比对,因为现有的状态模型只是区分了空位状态X Y M,而没有考虑具体的残基
解决
隐马尔可夫模型(Hidden Markov Model HMM)
The observable symbols (“tokens”, y(t)) are generated according to their corresponding states (x(t))
可观察的符号(“tokens”,y(t))是根据其相应的状态(x(t))生成
在状态的基础上增加了符号的概念
In addition to State Transition Probability, each state of HMM has a probability distribution over the possible output tokens(Emission Probability).
除了状态转移概率外,HMM的每个状态都有一个关于可能的输出标记的概率分布(生成概率)
除了状态转移概率之外,隐 ...