估计阅读时长: 4 分钟根据工作的需要,我为R#脚本解释器添加了一个符号计算的功能,这个符号语言特性在进行一些化学信息学分析的时候会非常有用。例如,我们在分析一些天然产物的质谱数据的时候,会需要通过母离子减掉一些糖来进行中性丢失的计算,基于中性丢失计算来进行一些解谱分析操作。在这个过程之中,化学式符号计算就可以派上很大用场了。假设我们有一个天然产物Cyanidin 3-glucoside-5-(6-p-coumaroylglucoside),从名称我们就可以看出这个天然产物是由一个Cyanidin母核,加上两个葡萄糖以及一个coumaroyl基团构成。这个天然产物的分子化学式为C36H37O18,那现在我们将这个化学式输入到R#解释器之中,按下回车就可以很清楚的了解到这个化学式的元素构成 > C36H37O18 757.1979802 (C:36, H:37, O:18) 如果想要使用这个特性,需要在R#终端上导入mzkit程序包模块:imports "formula" from "mzkit"; Order by Date Name […]
博客文章
February 2026
S M T W T F S
1234567
891011121314
15161718192021
22232425262728
  1. […] 在前面的一篇《基因组功能注释(EC Number)的向量化嵌入》博客文章中,针对所注释得到的微生物基因组代谢信息,进行基于TF-IDF的向量化嵌入之后。为了可视化向量化嵌入的效果,通过UMAP进行降维,然后基于降维的结果进行散点图可视化。通过散点图可视化可以发现向量化的嵌入结果可以比较好的将不同物种分类来源的微生物基因组区分开来。 […]

  2. […] 最近的工作中我需要按照之前的这篇博客文章《基因组功能注释(EC Number)的向量化嵌入》中所描述的流程,将好几十万个微生物基因组的功能蛋白进行酶编号的比对注释,然后基于注释结果进行向量化嵌入然后进行数据可视化。通过R#脚本对这些微生物基因组的蛋白fasta序列的提取操作,最终得到了一个大约是58GB的蛋白序列。然后将这个比较大型的蛋白序列比对到自己所收集到的ec number注释的蛋白序列参考数据库之上。 […]