估计阅读时长: 5 分钟基因组 为了能够实现上面所描述的这种基于EC Number的不同层级的加权嵌入,我们在原来的基因组嵌入工具上添加了一个hierarchical选项,用于支持切换为层级嵌入的操作: Imports Microsoft.VisualBasic.Data.Framework Imports Microsoft.VisualBasic.Data.NLP Imports SMRUCC.genomics.Interops.NCBI.Extensions.Pipeline Public Class GenomeMetabolicEmbedding ReadOnly vec As New […]
估计阅读时长: 14 分钟酶的EC number(Enzyme Commission number)是国际生物化学与分子生物学学会(IUBMB)酶学委员会制定的酶分类与命名体系的核心标识符,自1961年首次发布以来,已成为酶学研究、数据库管理和生物技术应用的全球标准。这套由四位数字所构成的的层级编码系统不仅解决了早期酶命名混乱的问题,还通过系统化分类揭示了酶催化功能的内在逻辑,为酶学研究提供了统一的框架。 Order by Date Name Attachments Enzyme_Commission_Numbers-visual_selection • 70 kB • 71 click […]
估计阅读时长: 18 分钟在前面的一篇《基因组功能注释(EC Number)的向量化嵌入》博客文章中,针对所注释得到的微生物基因组代谢信息,进行基于TF-IDF的向量化嵌入之后。为了可视化向量化嵌入的效果,通过UMAP进行降维,然后基于降维的结果进行散点图可视化。通过散点图可视化可以发现向量化的嵌入结果可以比较好的将不同物种分类来源的微生物基因组区分开来。除了针对降维后的数据进行散点图可视化,我们还可以直接针对向量化嵌入后的原始嵌入矩阵进行聚类,完成聚类结果的可视化。在这里我们主要是基于嵌入的原始结果进行二叉树聚类可视化。 Order by Date Name Attachments community_metabolic_tree • 220 kB • 75 click 2026年2月15日community-local • […]
估计阅读时长: 17 分钟EC Number是国际酶学委员会(IUBMB)制定的一套酶分类编号体系,EC Number采用层级分类法,由4个数字组成,分别代表酶的大类、亚类、亚亚类和序号。例如,“EC 1.1.1.37”中,第一个“1”表示氧化还原酶大类;第二个“1”表示作用于CH-OH基团;第三个“1”表示以NAD+或NADP+为受体的酶;第四个“37”表示特定酶苹果酸脱氢酶。这种层次结构意味着EC编号蕴含了丰富的功能信息,包括酶催化的反应类型和底物/机制。将EC Number嵌入为向量,有助于我们利用机器学习模型进行功能预测、相似性分析等。 Order by Date Name Attachments Capture • 14 kB • 102 […]
Recent Posts
Archives
- February 2026 (8)
- January 2026 (2)
- December 2025 (10)
- November 2025 (2)
- October 2025 (1)
- August 2025 (3)
- July 2025 (2)
- June 2025 (6)
- May 2025 (3)
- November 2023 (1)
- June 2023 (2)
- May 2023 (2)
- April 2023 (2)
- March 2023 (2)
- February 2023 (1)
- August 2022 (2)
- July 2022 (2)
- June 2022 (5)
- May 2022 (5)
- April 2022 (4)
- March 2022 (3)
- January 2022 (2)
- December 2021 (2)
- November 2021 (2)
- October 2021 (6)
- September 2021 (8)
- August 2021 (8)
- July 2021 (6)
- June 2021 (20)
- May 2021 (10)
Tags
algorithm (33)
bilibili (3)
binary tree (4)
clustering (21)
Darwinism (4)
data visualization (23)
dotnet-core (25)
ec number (4)
embedding (5)
GCModeller (20)
gdi+ (23)
gem (7)
ggplot (14)
graph (14)
heatmap (5)
http (4)
image processing (7)
kegg (8)
kmeans (3)
language (7)
linq (3)
linux (8)
machine learning (4)
mass spectrometry (12)
math (19)
metagenomics (6)
motif (4)
MSI (4)
mzkit (19)
network (8)
pathway (4)
pipeline (4)
query (5)
R# (44)
rsharp (23)
scripting (14)
single-cell (6)
sql (3)
symbolic computation (3)
text processing (4)
typescript (3)
ubuntu (4)
uniprot (3)
vb (19)
VisualBasic (50)

[…] 对于基于ec number来生成层级数据,我们直接使用《酶EC编号结构解析》文章末尾所展示的层级数据生成函数来实现。 […]
[…] 在前面的一篇《基因组功能注释(EC Number)的向量化嵌入》博客文章中,针对所注释得到的微生物基因组代谢信息,进行基于TF-IDF的向量化嵌入之后。为了可视化向量化嵌入的效果,通过UMAP进行降维,然后基于降维的结果进行散点图可视化。通过散点图可视化可以发现向量化的嵌入结果可以比较好的将不同物种分类来源的微生物基因组区分开来。 […]
😲啊?
谢老师,写快点呀,在看着你更新文章呢。
[…] 最近的工作中我需要按照之前的这篇博客文章《基因组功能注释(EC Number)的向量化嵌入》中所描述的流程,将好几十万个微生物基因组的功能蛋白进行酶编号的比对注释,然后基于注释结果进行向量化嵌入然后进行数据可视化。通过R#脚本对这些微生物基因组的蛋白fasta序列的提取操作,最终得到了一个大约是58GB的蛋白序列。然后将这个比较大型的蛋白序列比对到自己所收集到的ec number注释的蛋白序列参考数据库之上。 […]