估计阅读时长: 8 分钟https://github.com/xieguigang/sciBASIC 在进行无监督聚类分析的方法之中,我们在算法代码之中一般会遇到求解与某一个样本数据点最相似的数据点的计算过程。对于这个计算过程,一般而言我们是基于欧几里得距离来完成的。 Order by Date Name Attachments Visual a KDtree Search • 274 kB • 548 […]
估计阅读时长: 11 分钟PhenoGraph提供了与UMAP类似的算法过程进行单细胞组学数据的细胞分型处理操作。与UMAP方法相比,PhenoGraph并不会产生数据降维效果,仅仅产生数据点Cluster信息。如果需要将数据进行可视化,还需要借助于t-SNE算法将PhenoGraph的分型结果数据投影到一个二维平面上完成。 Order by Date Name Attachments Phenograph-image4 • 200 kB • 490 click 2021年8月9日Automated Optimal Parameters […]
估计阅读时长: 8 分钟https://github.com/xieguigang/sciBASIC/tree/master/Data_science/Mathematica/SignalProcessing 进行峰识别是在代谢组学原始数据分析之中进行定量分析的很重要的一环。在代谢组学之中,定量分析分为靶向定量,以及非靶向定量计算这两大部分。 Order by Date Name Attachments Figure12.36 • 50 kB • 510 click 2021年7月10日view_signal • […]
估计阅读时长: 16 分钟https://github.com/xieguigang/sciBASIC 等高线指的是地形图上高程相等的相邻各点所连成的闭合曲线。把地面上海拔高度相同的点连成的闭合曲线,并垂直投影到一个水平面上,并按比例缩绘在图纸上,就得到等高线。 Order by Date Name Attachments 1_Contour • 487 kB • 624 click 2021年6月30日Ms1Contour • […]
估计阅读时长: 8 分钟https://github.com/rsharp-lang/R-sharp 对于0,1两类分类问题,一些分类器得到的结果往往不是0,1这样的标签。如神经网络得到诸如0.5,0.8这样的分类结果。这时,我们人为取一个阈值,比如0.4,那么小于0.4的归为0类,大于等于0.4的归为1类,可以得到一个分类结果。同样,这个阈值我们可以取0.1或0.2等等。 Order by Date Name Attachments ROC • 221 kB • 558 click 2021年6月28日Roccurves • […]
估计阅读时长: 23 分钟https://github.com/rsharp-lang/R-sharp 降维是将数据由高维约减到低维的过程而用来揭示数据的本质低维结构。它作为克服“维数灾难”的途径在这些相关领域中扮演着重要的角色。在过去的几十年里,有大量的降维方法被不断地提出并被深入研究,其中常用的包括传统的降维算法如PCA和MDS;流形学习算法如UMAP、t-SNE、ISOMAP、LE以及LTSA等。 Order by Date Name Attachments MNIST-LabelledVectorArray-60000x100 • 230 kB • 648 click 2021年6月27日MNIST-LabelledVectorArray-60000x100Euclidean_Distance • […]
估计阅读时长: 3 分钟http://mzkit.org/ 质谱成像是以质谱技术为基础的成像方法,该方法通过质谱直接扫描生物样品成像,可以在同一张组织切片或组织芯片上同时分析数百种分子的空间分布特征。 Order by Date Name Attachments HR2MSI mouse urinary bladder S096 - optical image • […]
估计阅读时长: 13 分钟https://github.com/xieguigang/voyager-1 旅行者一号是一艘由NASA在1977年9月5日发射的宇宙飞船,其只比旅行者2号晚16天发射。旅行者一号除了担负着研究我们的太阳系的任务之外,在这艘飞船之上还搭载着一张我们尝试对外界介绍我们的文明的一张名片为“地球之音”的铜质镀金激光唱片,这张金唱片承载着人类与宇宙星系沟通的使命。 Order by Date Name Attachments 1080px-The_Sounds_of_Earth_Record_Cover_-_GPN-2000-001978 • 330 kB • 535 click 2021年6月18日scripting • […]
估计阅读时长: 7 分钟https://github.com/xieguigang/mzkit SMILES字符串是一种在计算化学领域内使用线性ASCII字符串描述一个具有空间立体结构的分子结构所使用的一种语言规范。因为在工作中会需要使用到SMILES字符串做一些分子结构相关的数据建模分析,所以编写了一个很方便的用于SMILES字符串解析操作的模块,在这篇文章中为大家讲解具体的工作原理。 Order by Date Name Attachments science-connection-structure-with-molecules-simple-modern-white-background-illustration_46577-719 • 36 kB • 513 click 2021年6月9日abstract-molecules-structure-with-connect-spherical-particles_46577-689 • […]
估计阅读时长: 15 分钟进行生物化学代谢反应网络的模拟计算,可以分为三种技术路线:基于线性规划做优化的FBA方法,基于常微分方程组求解的动力学模拟方法,以及最近发展的基于图神经网络做模拟计算的深度学习计算方法。在下面的表格中,在这里进行比较和总结了上面所提到的三种计算分析方法各自的计算原理和应用领域: 计算方法 原理 优势 适用场景 通量平衡分析(FBA) 基于约束条件(如化学计量矩阵、酶容量限制)和线性规划,在假设代谢网络处于稳态(即代谢物浓度不变)的前提下,计算代谢通量的分布,通常以最大化特定目标(如生物量生长)进行优化 1. 无需详细的酶动力学参数,特别适合大规模网络研究。2. 计算速度快,可系统性地预测基因敲除或环境扰动下的表型变化。3. 广泛应用于指导代谢工程,优化目标产物合成。 追求快速评估和全局优化:如果你的研究目标是在基因组尺度上快速评估微生物在不同条件下的生长或产物合成潜力,并且难以获取详细的动力学参数,FBA是一个非常实用的起点 动力学模拟 基于质量作用定律等构建常微分方程组(ODEs),描述每个代谢物浓度随时间变化的动力学过程,通过数值方法求解方程组 1. 能够捕捉代谢物浓度和通量的瞬态动态变化,揭示更精细的调控机制2. […]

Hello blogger, thank you for sharing this post! We process a large number of metagenomic samples, and every time we…
谢博,您好。阅读了您的博客文章非常受启发!这个基于k-mer数据库的过滤框架,其核心是一个“污染源数据库”和一个“基于覆盖度的决策引擎”。这意味着它的应用远不止于去除宿主reads。 我们可以轻松地将它扩展到其他场景: 例如去除PhiX测序对照:建一个PhiX的k-mer库,可以快速剔除Illumina测序中常见的对照序列。 例如去除常见实验室污染物:比如大肠杆菌、酵母等,建一个联合的污染物k-mer库,可以有效提升样本的纯净度。 例如还可以靶向序列富集:反过来想,如果我们建立一个目标物种(比如某种病原体)的k-mer库,然后用这个算法去“保留”而不是“去除”匹配的reads,这不就实现了一个超快速的靶向序列富集工具吗? 这中基于kmer算法的通用性和扩展性可能会是它的亮点之一。感谢博主提供了这样一个优秀的思想原型
It’s laborious to find knowledgeable people on this topic, however you sound like you realize what you’re speaking about! Thanks
WOW, display an image on a char only console this is really cool, I like this post because so much…
确实少有, 这么高质量的内容。谢谢作者。;-) 我很乐意阅读 你的这个技术博客网站。关于旅行者上的金唱片对外星朋友的美好愿望,和那个时代科技条件限制下人们做出的努力,激励人心。