R语言rhdf5怎么读写hdf5并展示文件组织结构和索引数据

蜗牛互联网技术资讯 2022-07-04 196 0

这篇文章主要介绍“R语言rhdf5怎么读写hdf5并展示文件组织结构和索引数据”的相关知识，小编通过实际案例向大家展示操作过程，操作方法简单快捷，实用性强，希望这篇“R语言rhdf5怎么读写hdf5并展示文件组织结构和索引数据”文章能帮助大家解决问题。

前言

h6只是一种简单的数据组织格式【层级数据存储格式(HierarchicalDataFormat：HDF)】，该格式被设计用以存储和组织大量数据。

R语言rhdf5怎么读写hdf5并展示文件组织结构和索引数据 r语言第1张

在一些单细胞文献中，作者通常会将分析的数据上传到GEO数据库保存为.h6格式文件，而不是我们常见的工程文件(rds文件，表格数据等)，所以为了解析利用这些数据需要对hdf5格式的组织结构有一定的了解。

（注：在Seurat包中有现成的函数Seurat::Read10X_h6()可以用来提取表达矩阵，但似乎此外无法从h6文件中提取更多的信息）。

GEO数据库

R语言rhdf5怎么读写hdf5并展示文件组织结构和索引数据 r语言第2张

在R语言中对HDF5进行操作的软件包为rhdf5。

安装

install.packages("BiocManager");BiocManager::install("rhdf5");library(rhdf5)

打开.h6文件和展示内容的组织结构

h6_file= H5Fopen("new.h6")
####如下所示，new.h6文件内创建了一个组（group1_mat）
#组内又创建了df和matrix两个层级用以保存矩阵和数据框
> h6dump(h6_file,load=FALSE)
$group1_mat
$group1_mat$df
  group name       otype   dclass dim
1     /   df H5I_DATASET COMPOUND   5

$group1_mat$matrix
  group   name       otype dclass   dim
1     / matrix H5I_DATASET  FLOAT 3 x 2

数据索引通过“$”符进行

> h6_file$group1_mat$df
  C_1 C_2 C_3 name
1   3   5  69   xx
2   2   8  60   yy
3   8   4  92   gg
4   1   6  16   ll
5   7   4  25   mm

关闭hdf5文件

H5Fclose(h6_file)#关闭当前打开的hdf5文件
h6closeAll()#关闭所有打开的hdf5文件

构建自己的hdf5文件

###准备数据
mdat <- matrix(c(0,2,3, 11,12,13), nrow = 2, ncol = 3, byrow = TRUE,dimnames = list(c("row1", "row2"),c("C.1", "C.2", "C.3")))
df <- data.frame(C_1 = c(3,2,8,1,7),C_2 = c(5,8,4,6,4),C_3 = round(runif(n = 5), 2) * 100,name = c("xx","yy","gg",'ll','mm'))
mdat.spar <- Matrix::Matrix(mdat, sparse = TRUE)
my_array <- array(seq(0.1,2.0,by=0.1),dim=c(5,2,2))
my_list <- list(my_array[,,1],my_array[,,2])
my_string <- "This is one hdf structure file"
###构建.h6文件
h6createFile("new.h6")
# Saving matrix information.
h6createGroup("new.h6","group1_mat")
h6write(mdat, "new.h6", "group1_mat/matrix")
h6write(df, "new.h6", "group1_mat/df")
# Saving sparse_matrix information.
mdat.spar <- as(mdat, "dgCMatrix")
h6createGroup("new.h6","group2_sparseMTX")
h6write(mdat.spar@x, "new.h6", "group2_sparseMTX/data")
h6write(dim(mdat.spar), "new.h6", "group2_sparseMTX/shape")
h6write(mdat.spar@i, "new.h6", "group2_sparseMTX/indices") # already zero-indexed.
h6write(mdat.spar@p, "new.h6", "group2_sparseMTX/indptr")
# Saving array and list data
h6createGroup("new.h6","group3_aL")
h6write(my_list, "new.h6", "group3_aL/list")
h6write(my_array, "new.h6", "group3_aL/array")
# Saving string data
h6createGroup("new.h6","group4_string")
h6write(my_string, "new.h6", "group4_string/string")
h6closeAll()

关于“R语言rhdf5怎么读写hdf5并展示文件组织结构和索引数据”的内容就介绍到这里了，感谢大家的阅读。如果想了解更多行业相关的知识，可以关注蜗牛博客行业资讯频道，小编每天都会为大家更新不同的知识点。

免责声明：本站发布的内容（图片、视频和文字）以原创、转载和分享为主，文章观点不代表本网站立场，如果涉及侵权请联系站长邮箱：niceseo99@gmail.com进行举报，并提供相关证据，一经查实，将立刻删除涉嫌侵权内容。