梁止潆的博客

发表于2022-11-16|Class

分割小腿断层剖图6块肌肉说明：Medical Image Processing课程project 2的源码和实现过程（有问题的可以私聊我，欢迎交流目标：分割小腿断层剖图6块肌肉缺点：由于老师没有给多模态数据，这方法不具备泛化性（就纯当完成个作业去看，如果有合适的三维数据集，这套代码也是能用的，就是改一下就可以了源码：https://github.com/JoyceLiang-sudo/DCE （欢迎✨ 准备数据总说这次任务很简单，所以只用了19张图片和对应的标注文件（其实我感觉10张就够了，但是没试过用matlab或者百度easydata标注图片，现在标注分割图片都是点几个点就可以了，都不用画轮廓 easydata有智能标注工具，只要手标10张，它就能帮你把剩下的图片都标注了（但是这里没必要要那么多张训练集模型输入是png图片，标注是COCO格式的具体实现（python 老师只给了一个128 x 128 x 247的mat格式文件，先把它分为247个mat，表示247张图片 123456def divide_mat(): data = sio ...

2.10 Dedicated database KEGG, OMIM

发表于2022-10-21|Learning NoteBioInformaticsSDUBioInformatics

2.10 专用数据库：KEGG、OMIM KEGG 是关于基因、蛋白质、生化反应以及通路的综合生物信息数据库，由多个子库构成 KEGG PATHWAY：包含了大量物种的代谢与生物信号传导通路信息总图代谢专题生化代谢图放大圆圈，每一个点代表一个化合物，每条线代表生化反应三羧酸循环详细通路图 KO数据库 Organismal Systems 信号传导通路图蛋白质详细信息 DRUG OMIM 人类孟德尔遗传在线数据库 (Online Mendel Inheritance Inheritance in Man) ，是一个将遗传病分类，并链接到相关人类基因组中的数据库 OMIM为临床医生和科研人员提供了权威可信的关于遗传疾病及相关疾病基因位点的详细信息搜索这个附近基因的列表以及引发的各种疾病查看基因的详细信息

2.9 Secondary Protein Database

发表于2022-10-21|Learning NoteBioInformaticsSDUBioInformatics

2.9 二级蛋白质数据库：Pfam、CATH、SCOP2 Pfam数据库是一个蛋白质结构域家族的集合搜索输入蛋白质序列找到四个结构域查看TIR Summary：获得这个结构域的功能信息及功能注释及结构信息 Domain organisation：目前有多少蛋白质拥有TIR结构域以及TIR结构域和其他结构域的组合搭配关系 Structures：列出目前所有包含TIR结构域的蛋白质结构，以及他们在序列数据库Uniprot和结构数据库PDB中的链接 CATH 数据库：结构分类数据库 Gene3D 里的信息为绝大多数还未解析 3D 结构的蛋白质提供了重要的功能研究依据 CATH给每一层的每一种结构分类命名，因此每个结构域会有像黄色那样的分类代码第一个数字：C 第二个数字：A 第三个数字：T 第四个数字：H CATH-Gene3D 还为超过 500 万条来自公共数据库的蛋白质序列进行了结构分类预测输入结构分类代码是2.70.40 ...

2.8 Primary Protein Structure Database PDB

发表于2022-10-21|Learning NoteBioInformaticsSDUBioInformatics

2.8 一级蛋白质结构数据库：PDB 蛋白质的结构可分为四级：一级结构 Primary structure: 氨基酸序列二级结构 Secondary structure：周期性的结构构象，α 螺旋，β折叠等三级结构 Tertiary structure：整条多肽链的三维空间结构，3D 结构四级结构 Quaternary structure：几个蛋白质分子（亚基）形成的复合体，如四聚体蛋白质结构数据库 (Protein Data Bank, PDB) 是全世界唯一存储生物大分子 3D 结构的数据库。这些生物大分子除了蛋白质以外还包括核酸及两者的复合物。只有通过实验方法获得的 3D 结构才会被收入其中。目前 PDB 数据库每周更新一次，至今，PDB 收录的结构数据已超过十二万条，其中 90%以上为蛋白质结构把作者的名字和蛋白质的名字一起搜索 **PDB ID：**数据库检索号，一个结构对应一个 PBD ID，而不是一个蛋白质对应一个 PBD ID，因为可以有很多结构 PDB 文件注释解读：一级蛋白质结构数据库：PDB-02 P21 基本信息部 ...

2.7 Primary Protein Sequence Database UniProt

发表于2022-10-21|Learning NoteBioInformaticsSDUBioInformatics

2.7 一级蛋白质序列数据库 UniProt 一级蛋白质数据库分为蛋白质序列数据库和蛋白质结构数据库，里面的数据都是通过实验方法直接得到的基础数据二级蛋白质数据库都是在一级数据库的基础上分析整理加工出来的 UniProt = Swiss-Prot + TrEMBL + PIR UniProt 三个层次数据库： UniParc: 收录所有 UniProt 数据库子库中的蛋白质序列，量大，粗糙 UniRef: 归纳 UniProt 几个主要数据库并将重复序列去除后的数据库 UniProtKB: 有详细注释并与其他数据库有链接的数据库，分为 UniProtKB/Swiss-Prot(人工注释，reviewed)和 UniProtKB/TrEMBL(计算机自动注释，not reviewed) 详见视频：一级蛋白质序列数据库：UniProtKB-02 P18 查找注：TrEMBL数据库中的数量远远大于Swiss-Prot数据库中的，前者是自动注释的没有经过检查，后者是人工注释的并且经过检查 UniProtKB 检索号和名称都是唯一的，有第三列的符号表示 ...

2.6 Secondary Nucleic Acid Database

发表于2022-10-21|Learning NoteBioInformaticsSDUBioInformatics

2.6 二级核酸数据库 RefSeq 数据库：参考序列数据库，是通过自动及人工精选出的非冗余数据库，包括基因组序列、转录序列和蛋白质序列 dbEST 数据库：表达序列标签数据库，包含来源于不同物种的表达序列标签 (EST) Gene 数据库：为用户提供基因序列注释和检索服务，收录了来自 5300 多个物种的 430 万条基因记录非编码 RNA 数据库：不编码但是起调节作用，ncRNA databases 汇总

2.5 Genome Database

发表于2022-10-21|Learning NoteBioInformaticsSDUBioInformatics

2.5 基因组数据库 2.5.1 人基因组数据库：Ensemble Ensemble 查看染色体 DUT基因在15号染色体上选择染色体概要，得到一览图，包括编码蛋白的基因、非编码基因、假基因，分别在染色体上不同区段内的含量，以及里面的红线为GC百分比，黑线为卫星DNA百分比 DUT基因位于15号染色体条带21.1附近这是以DUT基因为中心显示的放大图谱，点击DUT基因对应的区域，并在弹出的概况窗口中选择Ensemble数据库的检索号 DUT基因在Ensemble数据库中的详细记录 2.5.2 微生物宏基因组数据库：JCVI 美国国立卫生研究所 (NIH) 建立了人类微生物组学计划 (Human Microbiome Project，HMP) 目前 HMP 主要包括了人类鼻腔、口腔、皮肤、胃肠道和泌尿生殖道的宏基因组样本数据和分析流程 HMP 这是所有HMP中微生物的基因组，这些微生物在人体中存在的位置，测序及注释是已完成还是在分析中 WGS：全基因组鸟枪法测序项目数据库记录 SRA：高通量测序数据库 ...

2.4 Primary Nucleic Acid Database

发表于2022-10-21|Learning NoteBioInformaticsSDUBioInformatics

2.4 一级核酸数据库 INSDC = Genbank + ENA + DDBJ NCBI GenBank ENA 欧洲核苷酸序列数据集 DDBJ 日本 DNA 数据库 Genbank，ENA 与 DDBJ 共同构成国际核酸序列数据库合作联盟 (International Nucleotide Sequence Database Collaboration, INSDC)。通过 INSDC，三大核酸数据库的信息每日相互交换、更新汇总，这使得他们几乎在任何时候都享有相同的数据

2.4.2and3 GenBank:Eukaryotic Nucleic Acid Sequences mRNA and DNA

发表于2022-10-21|Learning NoteBioInformaticsSDUBioInformatics

2.4.2&3 GenBank: 真核生物核酸序列mRNA&DNA 真核生物核酸序列mRNA Nucleotide中搜索 dUTPase 的 **成熟 mRNA(剪切掉内含子，只剩外显子)**序列信息 U90223 跟原核生物那个差不多，挑特别的两点来说注意看清 CDS 的 note 部分，这里编码的是线粒体型的 CDS和 mat_peptide末尾差了 3 个碱基，因为编码区最后 3 个碱基是终止密码子，不翻译氨基酸真核生物核酸序列DNA Nucleotide 中搜索 dUTPase 的基因组 DNA 序列信息 AF018430。 LOCUS和ACCESSION可以不相同 source / map gene / mRNA AF018429上的1到1735的碱基连上当前序列的1到1177号碱基，连上AF018431这条序列上的1到45号碱基，以此类推连起来就是一条完整基因剪切后形成的 mRNA 有 2 种：上面的 mRNA 比下面的在前端多一个外显子，将被翻译成定位线粒体的信号肽，从而翻译出**线粒体型（mit ...

2.4.1 GenBank Prokaryotic nucleic acid sequences

发表于2022-10-21|Learning NoteBioInformaticsSDUBioInformatics

2.4.1 GenBank 原核生物核酸序列原核生物与真核生物基因的不同：原核基因组小，真核基因组大原核基因密度高，真核基因密度低原核编码区含量高，真核编码区含量低原核成线性分布(没有内含子)，真核非线性(因为翻译蛋白质的外显子被内含子分隔开来，也就是真核生物的RNA要经历剪切的过程，剪切后成熟的mRNA才能进行翻译) 例：大肠杆菌 Nucleotide 中搜索 X01714 `<img src="http://img.peterli.club/joy/202210210921506.png" style="zoom:50%;" />` LOCUS：基因名 <img src="/Users/joyce/Library/Application Support/typora-user-images/image-20221021092713118.png" alt="image-20221021092713118" style="zoom:50%;" /& ...