估计阅读时长: 18 分钟https://github.com/rsharp-lang/R-sharp/tree/master/studio/RData 如果我们需要将上游的R数据分析环境之中的数据集串流至下游的R#数据分析环境之中,构建出一个不同的数据分析环境混合在一块的自动化数据分析流程。我们一般会需要将上游的R环境之中的数据符号对象以RData的格式串流到下游环境中,下游环境进行反序列化加载数据到环境中执行相应的分析。例如在下游执行定制化程度更高的数据作图,将数据以在上游R环境中比较困难实现的其他二进制文件格式进行保存,或者进行分布式的跨物理机的集群化计算,等等用于实现单纯依靠R环境所比较困难实现的功能。 从上一篇博客文章之中我们比较下详细的了解了RData数据文件的文件格式以及对应的读取操作。在这篇文章之中我们来了解如何基于我们通过对RData文件读取操作所获取得到的链表数据进行反序列化操作,将R环境之中的数据集串流加载到下游的R#数据分析环境之中。 Order by Date Name Attachments rstudio-og-fb-1-1024x538 • 39 kB • 649 click 2021年12月4日read-vector […]
估计阅读时长: 15 分钟https://github.com/xieguigang/Darwinism NetCDF文件格式(Network Common Data Format)是一种以network byteorder进行编码的CDF数据文件格式。其广泛应用于大气科学、水文、海洋学、环境模拟、地球物理等诸多数据科学计算分析领域内的数据存储。 Order by Date Name Attachments netcdf • 2 MB • […]
博客文章
February 2026
S M T W T F S
1234567
891011121314
15161718192021
22232425262728
  1. […] 基于之前的一篇文章《TF-IDF与N-gram One-hot文档嵌入算法原理》的学习,我们了解到可以将生物序列通过分解为kmer,组成单词集合用来表示一个文档。从而将长度各异的生物序列嵌入为长读一致的数值向量,进而可以用于后续的各种数据处理工作中。在这里,假设我们将基因组中的所有基因提取出来,然后通过blast比对的方式将基因注释到对应的ec number编号,既可以将某一个基因组使用一个ec number的集合来表示。通过这样子的数据表示方法,我们就可以将任意一个大小各异,基因组成不同的基因组都嵌入为具有相同维度特征的数值向量用于机器学习建模之类的工作。 […]