2.4.1 GenBank Prokaryotic nucleic acid sequences
2.4.1 GenBank 原核生物核酸序列
原核生物与真核生物基因的不同:
- 原核基因组小,真核基因组大
- 原核基因密度高,真核基因密度低
- 原核编码区含量高,真核编码区含量低
- 原核成线性分布(没有内含子),真核非线性(因为翻译蛋白质的外显子被内含子分隔开来,也就是真核生物的RNA要经历剪切的过程,剪切后成熟的mRNA才能进行翻译)
例:大肠杆菌 Nucleotide 中搜索 X01714
`<img src="http://img.peterli.club/joy/202210210921506.png" style="zoom:50%;" />`
LOCUS:基因名
<img src="/Users/joyce/Library/Application Support/typora-user-images/image-20221021092713118.png" alt="image-20221021092713118" style="zoom:50%;" />
- DEFINTION
- ACCESSION VERSION:数据库里的编号,检索号,唯一不变
- KEYWORD
- SOURCE ORGANISM
- REFERENCE
- COMMENT
-
FEATURES:描述核酸序列中各个已确定的片段区域,包含很多子条目,比如来源 (source),启动子 (promoter) 等
- source:说明了核酸序列的来源,据此可以容易的分辨出该序列是来源于克隆载体还是基因组。当前序列(全长)来源于大肠杆菌的基因组 DNA。
- promoter:列出了启动子的位置。细菌有两个启动子区,一个 -35 区 (5’-TTGACA-3’) 位置在第 286 个碱基到第 291 个碱基,一个 -10 区 (5’-TATAAT-3’) 位置在第 310 个碱基到第 316 个碱基。
- misc_feature
- RBS
-
CDS(Coding Segment) : 记录了一个 ORF(open reading frame),从第 343 个碱基开始的 ATG(起始密码子)到第 798 个碱基结束的TAA (结束密码子)。除了第一行的位置信息,还包括翻译产物(蛋白质)的诸多信息。
<img src="http://img.peterli.club/joy/202210210934758.png" alt="image-20221021093439739" style="zoom:50%;" />
-
ORIGIN
FASTA 格式:
- 第一行,大于号加名称或其它注释
- 第二行以后:序列,每行60个字母(早已被打破,80,100都可以
Graphics:获得序列的图形概览
下载纯文本格式 (Flat File) 的数据库记录
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 梁止潆的博客!
评论