Blog

估计阅读时长: 5 分钟基因组为了能够实现上面所描述的这种基于EC Number的不同层级的加权嵌入，我们在原来的基因组嵌入工具上添加了一个hierarchical选项，用于支持切换为层级嵌入的操作： Imports Microsoft.VisualBasic.Data.Framework Imports Microsoft.VisualBasic.Data.NLP Imports SMRUCC.genomics.Interops.NCBI.Extensions.Pipeline Public Class GenomeMetabolicEmbedding ReadOnly vec As New […]

吉布斯LDA主题分解

谢桂纲 -

5:20 PM

估计阅读时长: < 1 分钟LDA（Latent Dirichlet Allocation，潜在狄利克雷分配）是一种主题模型，它假设文档是由多个主题混合而成的，而每个主题又是通过一定的概率分布选择词语生成的。Gibbs LDA 的核心在于使用吉布斯采样方法来推断这些隐藏的主题分布。 Attachments v2-883ac9db7f1cbd7325b2450cd225a897_b • 29 kB • 14 click 2026年2月23日

酶EC编号结构解析

谢桂纲 -

5:17 PM

估计阅读时长: 14 分钟酶的EC number（Enzyme Commission number）是国际生物化学与分子生物学学会（IUBMB）酶学委员会制定的酶分类与命名体系的核心标识符，自1961年首次发布以来，已成为酶学研究、数据库管理和生物技术应用的全球标准。这套由四位数字所构成的的层级编码系统不仅解决了早期酶命名混乱的问题，还通过系统化分类揭示了酶催化功能的内在逻辑，为酶学研究提供了统一的框架。 Order by Date Name Attachments Enzyme_Commission_Numbers-visual_selection • 70 kB • 76 click […]

二叉树聚类可视化微生物群落代谢差异

谢桂纲 -

12:30 PM

估计阅读时长: 18 分钟在前面的一篇《基因组功能注释（EC Number）的向量化嵌入》博客文章中，针对所注释得到的微生物基因组代谢信息，进行基于TF-IDF的向量化嵌入之后。为了可视化向量化嵌入的效果，通过UMAP进行降维，然后基于降维的结果进行散点图可视化。通过散点图可视化可以发现向量化的嵌入结果可以比较好的将不同物种分类来源的微生物基因组区分开来。除了针对降维后的数据进行散点图可视化，我们还可以直接针对向量化嵌入后的原始嵌入矩阵进行聚类，完成聚类结果的可视化。在这里我们主要是基于嵌入的原始结果进行二叉树聚类可视化。 Order by Date Name Attachments community_metabolic_tree • 220 kB • 77 click 2026年2月15日community-local • […]

通过diamond软件进行blastp搜索

谢桂纲 -

8:27 AM

估计阅读时长: 20 分钟最近的工作中我需要按照之前的这篇博客文章《基因组功能注释（EC Number）的向量化嵌入》中所描述的流程，将好几十万个微生物基因组的功能蛋白进行酶编号的比对注释，然后基于注释结果进行向量化嵌入然后进行数据可视化。通过R#脚本对这些微生物基因组的蛋白fasta序列的提取操作，最终得到了一个大约是58GB的蛋白序列。然后将这个比较大型的蛋白序列比对到自己所收集到的ec number注释的蛋白序列参考数据库之上。 Order by Date Name Attachments diamond-output • 42 kB • 84 click 2026年2月15日diamond-table-size […]

UPGMA算法构建进化树

谢桂纲 -

6:58 AM

估计阅读时长: < 1 分钟UPGMA（Unweighted Pair Group Method with Arithmetic Mean，非加权配对组平均法）是一种经典的基于距离矩阵构建系统发育树的聚类算法。其核心思想是假设进化速率恒定（分子钟假说），通过迭代合并距离最近的两个类群（或序列）来构建树。UPGMA算法具有原理简单，计算速度快，易于理解和实现。对于符合分子钟假说（即所有分支进化速率相同）的数据，能给出正确的拓扑结构这些优点。但是其“进化速率恒定”的假设在现实中常常不成立。如果数据存在明显的速率差异（即存在长枝），UPGMA可能会构建出错误的树（拓扑结构错误）。因此，它更适用于进化速率相对均匀的近缘物种或基因的比较。

基因组功能注释（EC Number）的向量化嵌入

谢桂纲 -

12:39 AM

估计阅读时长: 17 分钟EC Number是国际酶学委员会（IUBMB）制定的一套酶分类编号体系，EC Number采用层级分类法，由4个数字组成，分别代表酶的大类、亚类、亚亚类和序号。例如，“EC 1.1.1.37”中，第一个“1”表示氧化还原酶大类；第二个“1”表示作用于CH-OH基团；第三个“1”表示以NAD+或NADP+为受体的酶；第四个“37”表示特定酶苹果酸脱氢酶。这种层次结构意味着EC编号蕴含了丰富的功能信息，包括酶催化的反应类型和底物/机制。将EC Number嵌入为向量，有助于我们利用机器学习模型进行功能预测、相似性分析等。 Order by Date Name Attachments Capture • 14 kB • 105 […]

TF-IDF与N-gram One-hot文档嵌入算法原理

谢桂纲 -

10:38 PM

估计阅读时长: 11 分钟在将生物序列（如基因组或蛋白质序列）或文本数据转换为数值向量形式时，TF-IDF（Term Frequency-Inverse Document Frequency）和N-gram One-hot（又称Bag-of-n-grams）是两种经典且基础的文档嵌入算法。它们各自侧重于不同的特征提取方式，常被用于自然语言处理和生物信息学领域。 Attachments scatter_plot • 433 kB • 108 click 2026年2月10日

CenterStar多序列比对算法

谢桂纲 -

2:20 PM

估计阅读时长: 22 分钟MSA（多序列比对）在生物信息学中的核心目标是：通过把多条同源序列“对齐”，来突出它们之间的相似与差异，从而帮助我们：识别保守区/功能位点、推断进化关系（系统发生）、预测或解释蛋白质/核酸结构、发现共进化与功能模块，以及为后续分析（如模体搜索、结构建模、从头设计等）提供基础。基于多序列比对分析，我们可以通过这种算法，把一堆表面看上去“乱糟糟”的序列，整理成一个可以“逐位点比较”的框架。基于我们所得到的这个框架基础，我们可以进行下游的后续分析，例如：识别哪些部分是“不能动”的（功能/结构核心）；推断它们是如何“进化而来”的（系统发生）；推测它们在空间中“长什么样”（结构预测与建模）；找出哪些部分“一起变化”（共进化与功能耦合）；并把这些信息封装成模型（HMM、profile）用于大规模搜索与注释。 Order by Date Name Attachments MSA • 174 kB • […]

建立KEGG的KO序列数据库

谢桂纲 -

10:45 AM

估计阅读时长: 16 分钟KEGG 里面目前并没有“现成的每个 KO 一条代表性序列 FASTA”这种官方序列数据库，假若我们需要基于KEGG数据库中的KO信息的注释，那我们一般会需要自己从 KEGG GENES 里面把每个 KO 对应的基因/蛋白序列抓出来，再按 KO 编号组织成 fasta 集合构建出对应的数据库。基于所建立好的KEGG基因序列数据库，我们就可以实现下面的一些基因注释工作：在全基因组规模代谢网络重建工作中，进行我们的目标基因组中的代谢网络中的酶节点的直系同源推断，从而将我们的目标基因组中的基因映射到具体的KEGG代谢网络上的节点位置，从而重建出代谢网络模型（使用带有KO编号的蛋白序列做比对注释）假若我们在进行宏基因组的基因丰度的计算，则可以基于所建立的KEGG基因序列数据库作为参考库，进行宏基因组测序数据中的KO基因丰度的计算（使用带有KO编号的基因序列做比对注释） […]

February 2026
S	M	T	W	T	F	S
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28

基因组代谢酶层级嵌入 – この中二病に爆焔を！ on 酶EC编号结构解析2026年2月23日
[…] 对于基于ec number来生成层级数据，我们直接使用《酶EC编号结构解析》文章末尾所展示的层级数据生成函数来实现。 […]
二叉树聚类可视化微生物群落代谢差异 – この中二病に爆焔を！ on 基因组功能注释（EC Number）的向量化嵌入2026年2月15日
[…] 在前面的一篇《基因组功能注释（EC Number）的向量化嵌入》博客文章中，针对所注释得到的微生物基因组代谢信息，进行基于TF-IDF的向量化嵌入之后。为了可视化向量化嵌入的效果，通过UMAP进行降维，然后基于降维的结果进行散点图可视化。通过散点图可视化可以发现向量化的嵌入结果可以比较好的将不同物种分类来源的微生物基因组区分开来。 […]
谢桂纲 on 通过diamond软件进行blastp搜索2026年2月15日
😲啊？
Aylin呱呱 on 通过diamond软件进行blastp搜索2026年2月15日
谢老师，写快点呀，在看着你更新文章呢。
通过diamond软件进行blastp搜索 – この中二病に爆焔を！ on 基因组功能注释（EC Number）的向量化嵌入2026年2月15日
[…] 最近的工作中我需要按照之前的这篇博客文章《基因组功能注释（EC Number）的向量化嵌入》中所描述的流程，将好几十万个微生物基因组的功能蛋白进行酶编号的比对注释，然后基于注释结果进行向量化嵌入然后进行数据可视化。通过R#脚本对这些微生物基因组的蛋白fasta序列的提取操作，最终得到了一个大约是58GB的蛋白序列。然后将这个比较大型的蛋白序列比对到自己所收集到的ec number注释的蛋白序列参考数据库之上。 […]

基因组代谢酶层级嵌入

吉布斯LDA主题分解

酶EC编号结构解析

二叉树聚类可视化微生物群落代谢差异

通过diamond软件进行blastp搜索

UPGMA算法构建进化树

基因组功能注释（EC Number）的向量化嵌入

TF-IDF与N-gram One-hot文档嵌入算法原理

CenterStar多序列比对算法

建立KEGG的KO序列数据库

Recent Posts

Archives

博客文章

Blog

基因组代谢酶层级嵌入

吉布斯LDA主题分解

酶EC编号结构解析

二叉树聚类可视化微生物群落代谢差异

通过diamond软件进行blastp搜索

UPGMA算法构建进化树

基因组功能注释（EC Number）的向量化嵌入

TF-IDF与N-gram One-hot文档嵌入算法原理

CenterStar多序列比对算法

建立KEGG的KO序列数据库

Recent Posts

Archives

博客文章

Tags