2.4.1 GenBank 原核生物核酸序列

原核生物与真核生物基因的不同:

  1. 原核基因组小,真核基因组大
  2. 原核基因密度高,真核基因密度低
  3. 原核编码区含量高,真核编码区含量低
  4. 原核成线性分布(没有内含子),真核非线性(因为翻译蛋白质的外显子被内含子分隔开来,也就是真核生物的RNA要经历剪切的过程,剪切后成熟的mRNA才能进行翻译)
image-20221021091616772

例:大肠杆菌 Nucleotide 中搜索 X01714

image-20221021091649929
`<img src="http://img.peterli.club/joy/202210210921506.png" style="zoom:50%;" />`

LOCUS:基因名

<img src="/Users/joyce/Library/Application Support/typora-user-images/image-20221021092713118.png" alt="image-20221021092713118" style="zoom:50%;" />

  • DEFINTION
image-20221021092824616
  • ACCESSION VERSION:数据库里的编号,检索号,唯一不变
image-20221021092906003
  • KEYWORD
image-20221021092927213
  • SOURCE ORGANISM
image-20221021092945134
  • REFERENCE
image-20221021093002156
  • COMMENT
image-20221021093109073
  • FEATURES:描述核酸序列中各个已确定的片段区域,包含很多子条目,比如来源 (source),启动子 (promoter) 等

    image-20221021093129890
    • source:说明了核酸序列的来源,据此可以容易的分辨出该序列是来源于克隆载体还是基因组。当前序列(全长)来源于大肠杆菌的基因组 DNA。
    image-20221021093153056
    • promoter:列出了启动子的位置。细菌有两个启动子区,一个 -35 区 (5’-TTGACA-3’) 位置在第 286 个碱基到第 291 个碱基,一个 -10 区 (5’-TATAAT-3’) 位置在第 310 个碱基到第 316 个碱基。
    image-20221021093224593
    • misc_feature
    image-20221021093250757
    • RBS
    image-20221021093315623
    • CDS(Coding Segment) : 记录了一个 ORF(open reading frame),从第 343 个碱基开始的 ATG(起始密码子)到第 798 个碱基结束的TAA (结束密码子)。除了第一行的位置信息,还包括翻译产物(蛋白质)的诸多信息。

      image-20221021093346250

      <img src="http://img.peterli.club/joy/202210210934758.png" alt="image-20221021093439739" style="zoom:50%;" />

  • ORIGIN

    image-20221021093505266

FASTA 格式

  • 第一行,大于号加名称或其它注释
  • 第二行以后:序列,每行60个字母(早已被打破,80,100都可以
image-20221021093520972

Graphics:获得序列的图形概览

image-20221021093536225

下载纯文本格式 (Flat File) 的数据库记录

image-20221021093549933