数据处理 – Page 2 – この中二病に爆焔を！

Abdelmoula, W.M., Lopez, B.GC., Randall, E.C. et al. Peak learning of mass spectrometry imaging data using artificial neural networks. Nat Commun 12, 5544 (2021). https://doi.org/10.1038/s41467-021-25744-8

估计阅读时长: 4 分钟基于UMAP工具进行简单的自动化组织分区操作在这里我们假设已经可以正常的将空间代谢数据导入至MZKit工作站软件之中。假若需要借助于MZKit工作站软件进行切片组织样本的自动化分区操作，相关的功能可以在【MSI Analysis】菜单栏中寻找到。在这里我们打开【Show Map Layer】按钮，选择【UMAP and clustering】功能。基于降维的组织自动化分区原理因为降维操作一般是一种特征提取操作，所以经过降维之后，在高维度空间上无法显现的特征，在低维度会呈现出来。在高维度空间散落的相近的数据点，在经过特征提取之后，低维度上会产生相似的特征信息，相互聚集在一簇。这样子我们就可以在低维度空间上通过一些聚类算法讲这些特征进行聚类，最后将聚类特征结果标记到各个散点上的对应的原始成像空间上，我们就可以看见组织分区的结果了。 Abdelmoula, W.M., Lopez, B.GC., Randall, E.C. et […]

生物序列图嵌入算法

谢桂纲 -

12:50 AM

估计阅读时长: 24 分钟假若现在有两条Fasta序列放在你面前，现在需要你进行这两条Fasta序列的相似度计算分析。如果对于我而言，大学刚毕业刚入门生物信息学的时候，可能只能够想到通过blast比对的方式进行序列相似性计算分析。基于blast比对方式可以找到生物学意义上的序列相似性结果，但是计算的效率会比较低。假设现在让你使用这些序列进行机器学习建模分析，或者基于传统数学意义上的基于相似度的无监督聚类分析的时候，面对这些长度上长短不一的生物序列数据，可能会比较蒙圈，因为传统的数学分析方法都要求我们分析的目标至少应该是等长的向量数据。 Order by Date Name Attachments Fasta-A • 544 kB • 595 click 2023年6月29日visualize • 45 […]

【基因组学】构建全基因组调控网络

谢桂纲 -

1:19 PM

估计阅读时长: 7 分钟一般而言，进行全基因组的转录表达调控网络的建立，我们需要基于两个数据结果来完成：目标基因的转录调控位点信息（Motif搜索结果，构成网络之中的节点）转录调控位点相应的转录调控因子（Motif位点相关的转录调控因子，构成网络之中的边连接） Order by Date Name Attachments Xor • 271 kB • 682 click 2022年6月11日An […]

记一次浅尝辄止的FBA代谢网络分析

谢桂纲 -

9:20 PM

估计阅读时长: 10 分钟https://gcmodeller.org/ 流平衡分析（flux balance analysis）是一种可以用来构建和模拟分析基因组级别的代谢网络的数学方法。流平衡分析是系统生物学（system biology）的一个重要的分析手段。不同于以湿实验的代谢通量分析（metabolic flux analysis, MFA），FBA是用数学方法对代谢网络里的代谢流进行拟合分析。 Order by Date Name Attachments Electron micrographs of […]

使用R#语言求解线性规划问题

谢桂纲 -

11:09 PM

估计阅读时长: 30 分钟https://github.com/xieguigang/sciBASIC/ 线性规划（Linear programming,简称LP）方法起源于20世纪40年代，由美国数学家乔治·丹齐格（George Dantzig）提出，并设计了著名的“单纯形法”。这种优化算法是运筹学中研究较早、发展较快、应用广泛、方法较成熟的一个重要分支，它是辅助人们进行科学管理的一种数学方法。研究线性约束条件下线性目标函数的极值问题的数学理论和方法。通俗点的来讲，就是我们基于这一种数学优化技术，用于在一组线性约束条件下，求解线性目标函数的最大值或最小值（就是在“有限资源”和“一定规则”下，找到“最佳方案”的一种方法）。 Order by Date Name Attachments linear-programming-example • 22 kB • 770 click […]

Automated Optimal Parameters for T-Distributed Stochastic Neighbor Embedding Improve Visualization and Allow Analysis of Large Datasets

【单细胞组学】PhenoGraph单细胞分型

谢桂纲 -

12:37 AM

估计阅读时长: 11 分钟PhenoGraph提供了与UMAP类似的算法过程进行单细胞组学数据的细胞分型处理操作。与UMAP方法相比，PhenoGraph并不会产生数据降维效果，仅仅产生数据点Cluster信息。如果需要将数据进行可视化，还需要借助于t-SNE算法将PhenoGraph的分型结果数据投影到一个二维平面上完成。 Order by Date Name Attachments Phenograph-image4 • 200 kB • 687 click 2021年8月9日Automated Optimal Parameters […]

【网络可视化】基于Louvain算法的网络集群发现

谢桂纲 -

6:54 PM

估计阅读时长: 11 分钟https://github.com/xieguigang/sciBASIC Louvain算法是基于模块度的网络节点集群发现算法。该算法在效率和效果上都表现较好，并且能够发现层次性的网络节点集群结构，其优化目标是最大化整个网络集群模块的模块度（Modularity）。 Order by Date Name Attachments graph • 2 MB • 707 click 2021年8月7日Metavirome network […]

峰识别方法计算原理

谢桂纲 -

12:04 AM

估计阅读时长: 8 分钟https://github.com/xieguigang/sciBASIC/tree/master/Data_science/Mathematica/SignalProcessing 进行峰识别是在代谢组学原始数据分析之中进行定量分析的很重要的一环。在代谢组学之中，定量分析分为靶向定量，以及非靶向定量计算这两大部分。 Order by Date Name Attachments Figure12.36 • 50 kB • 716 click 2021年7月10日view_signal • […]

【Darwinism】LINQ脚本查询NetCDF数据集

谢桂纲 -

12:09 PM

估计阅读时长: 15 分钟https://github.com/xieguigang/Darwinism NetCDF文件格式（Network Common Data Format）是一种以network byteorder进行编码的CDF数据文件格式。其广泛应用于大气科学、水文、海洋学、环境模拟、地球物理等诸多数据科学计算分析领域内的数据存储。 Order by Date Name Attachments netcdf • 2 MB • […]

Computational Analysis of Biochemical Systems

【GCModeller】生物化学系统动力学模拟器

谢桂纲 -

12:04 AM

估计阅读时长: 15 分钟进行生物化学代谢反应网络的模拟计算，可以分为三种技术路线：基于线性规划做优化的FBA方法，基于常微分方程组求解的动力学模拟方法，以及最近发展的基于图神经网络做模拟计算的深度学习计算方法。在下面的表格中，在这里进行比较和总结了上面所提到的三种计算分析方法各自的计算原理和应用领域：计算方法原理优势适用场景通量平衡分析（FBA）基于约束条件（如化学计量矩阵、酶容量限制）和线性规划，在假设代谢网络处于稳态（即代谢物浓度不变）的前提下，计算代谢通量的分布，通常以最大化特定目标（如生物量生长）进行优化 1. 无需详细的酶动力学参数，特别适合大规模网络研究。2. 计算速度快，可系统性地预测基因敲除或环境扰动下的表型变化。3. 广泛应用于指导代谢工程，优化目标产物合成。追求快速评估和全局优化：如果你的研究目标是在基因组尺度上快速评估微生物在不同条件下的生长或产物合成潜力，并且难以获取详细的动力学参数，FBA是一个非常实用的起点动力学模拟基于质量作用定律等构建常微分方程组（ODEs），描述每个代谢物浓度随时间变化的动力学过程，通过数值方法求解方程组 1. 能够捕捉代谢物浓度和通量的瞬态动态变化，揭示更精细的调控机制2. […]

February 2026
S	M	T	W	T	F	S
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28

基因组代谢酶层级嵌入 – この中二病に爆焔を！ on 酶EC编号结构解析2026年2月23日
[…] 对于基于ec number来生成层级数据，我们直接使用《酶EC编号结构解析》文章末尾所展示的层级数据生成函数来实现。 […]
二叉树聚类可视化微生物群落代谢差异 – この中二病に爆焔を！ on 基因组功能注释（EC Number）的向量化嵌入2026年2月15日
[…] 在前面的一篇《基因组功能注释（EC Number）的向量化嵌入》博客文章中，针对所注释得到的微生物基因组代谢信息，进行基于TF-IDF的向量化嵌入之后。为了可视化向量化嵌入的效果，通过UMAP进行降维，然后基于降维的结果进行散点图可视化。通过散点图可视化可以发现向量化的嵌入结果可以比较好的将不同物种分类来源的微生物基因组区分开来。 […]
谢桂纲 on 通过diamond软件进行blastp搜索2026年2月15日
😲啊？
Aylin呱呱 on 通过diamond软件进行blastp搜索2026年2月15日
谢老师，写快点呀，在看着你更新文章呢。
通过diamond软件进行blastp搜索 – この中二病に爆焔を！ on 基因组功能注释（EC Number）的向量化嵌入2026年2月15日
[…] 最近的工作中我需要按照之前的这篇博客文章《基因组功能注释（EC Number）的向量化嵌入》中所描述的流程，将好几十万个微生物基因组的功能蛋白进行酶编号的比对注释，然后基于注释结果进行向量化嵌入然后进行数据可视化。通过R#脚本对这些微生物基因组的蛋白fasta序列的提取操作，最终得到了一个大约是58GB的蛋白序列。然后将这个比较大型的蛋白序列比对到自己所收集到的ec number注释的蛋白序列参考数据库之上。 […]

Posts in 数据处理

【MZKit】简单自动化组织分区

生物序列图嵌入算法

【基因组学】构建全基因组调控网络

记一次浅尝辄止的FBA代谢网络分析

使用R#语言求解线性规划问题

【单细胞组学】PhenoGraph单细胞分型

【网络可视化】基于Louvain算法的网络集群发现

峰识别方法计算原理

【Darwinism】LINQ脚本查询NetCDF数据集

【GCModeller】生物化学系统动力学模拟器

Recent Posts

Archives

博客文章

Posts in 数据处理

【MZKit】简单自动化组织分区

生物序列图嵌入算法

【基因组学】构建全基因组调控网络

记一次浅尝辄止的FBA代谢网络分析

使用R#语言求解线性规划问题

【单细胞组学】PhenoGraph单细胞分型

【网络可视化】基于Louvain算法的网络集群发现

峰识别方法计算原理

【Darwinism】LINQ脚本查询NetCDF数据集

【GCModeller】生物化学系统动力学模拟器

Recent Posts

Archives

博客文章

Tags