估计阅读时长: 2 分钟Github项目:https://github.com/xieguigang/marker 本程序包是一个基于R语言的综合性机器学习工具集,专门设计用于生物标志物发现和疾病预测模型的构建。该工具整合了多种机器学习算法,提供了从数据预处理、特征选择到模型构建与验证的完整工作流程,特别适用于代谢组学、基因组学等高维生物数据的分析研究。在这个程序包中,主要是通过marker函数来封装了从数据与处理到模型建立的每一个步骤,主要将程序包划分为了以下的工作步骤模块: 数据加载和预处理 初始可视化(PCA图)和统计分析(线性模型、描述性统计) 特征选择(如果未提供预选特征,则使用LASSO、随机森林和SVM-RFE三种方法) 数据分割为训练集和测试集 模型集成训练(逻辑回归、XGBoost、随机森林) 结果可视化(ROC曲线、特征重要性、SHAP分析等) 大家在这里可以通过下面的技术路线图来了解在所编写的程序包中所涉及到的分析内容与步骤: 所主要涉及到的模型算法原理 机器学习方法 数学原理 使用场景 应用 LASSO回归 LASSO(Least […]
估计阅读时长: 9 分钟https://github.com/xieguigang/sciBASIC 在实际应用的机器学习方法里,GradientTree Boosting (GBDT)是一个在很多应用里都很出彩的技术。XGBoost是一套提升树可扩展的机器学习系统。XGBoost全名叫(eXtreme Gradient Boosting)极端梯度提升。它是大规模并行boosted tree的工具,XGBoost 所应用的算法就是 GBDT(gradient boosting decision tree)的改进,既可以用于分类也可以用于回归问题中。 Order by Date Name […]
估计阅读时长: 8 分钟https://github.com/xieguigang/sciBASIC 在进行无监督聚类分析的方法之中,我们在算法代码之中一般会遇到求解与某一个样本数据点最相似的数据点的计算过程。对于这个计算过程,一般而言我们是基于欧几里得距离来完成的。 Order by Date Name Attachments Visual a KDtree Search • 274 kB • 546 […]
估计阅读时长: 8 分钟https://github.com/rsharp-lang/R-sharp 对于0,1两类分类问题,一些分类器得到的结果往往不是0,1这样的标签。如神经网络得到诸如0.5,0.8这样的分类结果。这时,我们人为取一个阈值,比如0.4,那么小于0.4的归为0类,大于等于0.4的归为1类,可以得到一个分类结果。同样,这个阈值我们可以取0.1或0.2等等。 Order by Date Name Attachments ROC • 221 kB • 556 click 2021年6月28日Roccurves • […]

Hello blogger, thank you for sharing this post! We process a large number of metagenomic samples, and every time we…
谢博,您好。阅读了您的博客文章非常受启发!这个基于k-mer数据库的过滤框架,其核心是一个“污染源数据库”和一个“基于覆盖度的决策引擎”。这意味着它的应用远不止于去除宿主reads。 我们可以轻松地将它扩展到其他场景: 例如去除PhiX测序对照:建一个PhiX的k-mer库,可以快速剔除Illumina测序中常见的对照序列。 例如去除常见实验室污染物:比如大肠杆菌、酵母等,建一个联合的污染物k-mer库,可以有效提升样本的纯净度。 例如还可以靶向序列富集:反过来想,如果我们建立一个目标物种(比如某种病原体)的k-mer库,然后用这个算法去“保留”而不是“去除”匹配的reads,这不就实现了一个超快速的靶向序列富集工具吗? 这中基于kmer算法的通用性和扩展性可能会是它的亮点之一。感谢博主提供了这样一个优秀的思想原型
It’s laborious to find knowledgeable people on this topic, however you sound like you realize what you’re speaking about! Thanks
WOW, display an image on a char only console this is really cool, I like this post because so much…
确实少有, 这么高质量的内容。谢谢作者。;-) 我很乐意阅读 你的这个技术博客网站。关于旅行者上的金唱片对外星朋友的美好愿望,和那个时代科技条件限制下人们做出的努力,激励人心。