2.7 一级蛋白质序列数据库 UniProt

一级蛋白质数据库分为蛋白质序列数据库和蛋白质结构数据库,里面的数据都是通过实验方法直接得到的基础数据

二级蛋白质数据库都是在一级数据库的基础上分析整理加工出来的

image-20221021100846294
  • UniProt = Swiss-Prot + TrEMBL + PIR
image-20221021100911809 Untitled
  • UniProt 三个层次数据库

    • UniParc: 收录所有 UniProt 数据库子库中的蛋白质序列,量大,粗糙
    • UniRef: 归纳 UniProt 几个主要数据库并将重复序列去除后的数据库
    • UniProtKB: 有详细注释并与其他数据库有链接的数据库,分为 UniProtKB/Swiss-Prot(人工注释,reviewed)和 UniProtKB/TrEMBL(计算机自动注释,not reviewed)
  • 详见视频一级蛋白质序列数据库:UniProtKB-02 P18

  • 查找 注:TrEMBL数据库中的数量远远大于Swiss-Prot数据库中的,前者是自动注释的没有经过检查,后者是人工注释的并且经过检查

Untitled
  • UniProtKB

    • 检索号和名称都是唯一的,有第三列的符号表示在Swiss-Prot里面,经过人工注释和检查的,没有的表示在TrEMBL里的

      Untitled
    • 标签

      Untitled
    • Function

      Untitled
    • Names & Taxonomy

      Untitled
    • Subcellular location

      成熟的蛋白质必须在特定的细胞部位才能发挥其生物学功能,蛋白质在细胞内不同组分中的定位即为蛋白质的亚细胞定位

      亚细胞定位对蛋白质的生理功能有着直接的影响,处于合适的亚细胞定位的蛋白质才能行使其正常的功能,目前研究亚细胞定位的数据来源基本都是属于Swiss-Prot数据库

      Untitled
    • Pathology & Biotech

      比如99位丝氨酸会突变成丙氨酸,从而导致磷酸化的缺失

      Untitled
    • PTM/Processing

      比如信号肽在到达了指定位置之后,要被剪切掉,有些氨基酸位点上会发生乙酰化、甲基化、磷酸化等翻译后修饰

      Untitled
    • Expression

      Untitled
    • Interaction

      Untitled
    • Structure

      Untitled
    • Family & Domains

      Untitled
    • Sequences

      含有多个异构体的蛋白质会显示多条序列。这个蛋白质有两个异构体,一个线粒体型的,一个细胞核型的,所以会显示两条序列

      Untitled
    • Cross-references

      Untitled
    • Entry information

      Untitled
    • Miscellaneous

      Untitled
    • Similar proteins

      Untitled
    • Flat File

      Untitled Untitled