2.4.1 GenBank 原核生物核酸序列

原核生物与真核生物基因的不同：

原核基因组小，真核基因组大
原核基因密度高，真核基因密度低
原核编码区含量高，真核编码区含量低
原核成线性分布(没有内含子)，真核非线性(因为翻译蛋白质的外显子被内含子分隔开来，也就是真核生物的RNA要经历剪切的过程，剪切后成熟的mRNA才能进行翻译)

例：大肠杆菌 Nucleotide 中搜索 X01714

`<img src="http://img.peterli.club/joy/202210210921506.png" style="zoom:50%;" />`

LOCUS：基因名

<img src="/Users/joyce/Library/Application Support/typora-user-images/image-20221021092713118.png" alt="image-20221021092713118" style="zoom:50%;" />

DEFINTION

ACCESSION VERSION：数据库里的编号，检索号，唯一不变

KEYWORD

SOURCE ORGANISM

REFERENCE

COMMENT

FEATURES：描述核酸序列中各个已确定的片段区域，包含很多子条目，比如来源 (source)，启动子 (promoter) 等
- source：说明了核酸序列的来源，据此可以容易的分辨出该序列是来源于克隆载体还是基因组。当前序列（全长）来源于大肠杆菌的基因组 DNA。
- promoter：列出了启动子的位置。细菌有两个启动子区，一个 -35 区 (5’-TTGACA-3’) 位置在第 286 个碱基到第 291 个碱基，一个 -10 区 (5’-TATAAT-3’) 位置在第 310 个碱基到第 316 个碱基。
- misc_feature
- RBS
- CDS(Coding Segment) : 记录了一个 ORF(open reading frame),从第 343 个碱基开始的 ATG(起始密码子)到第 798 个碱基结束的TAA (结束密码子)。除了第一行的位置信息，还包括翻译产物(蛋白质)的诸多信息。
  
  <img src="http://img.peterli.club/joy/202210210934758.png" alt="image-20221021093439739" style="zoom:50%;" />
ORIGIN