V2EX › NoobStone 的所有回复 › 第 1 页 / 共 1 页

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

2022-06-29 12:27:58 +08:00

回复了 Richard14 创建的主题 › 问与答 › 深度学习训练跑庞大数据集（大于内存）载入的正确方式？

没怎么用过 pytorch ，你现在的方式：“换了一种方式是把数据集中到几个大文件中，然后 dataloader 选用顺序读取，这样每次就可以 load 很多到内存里不用频繁 IO ，但是缺点是只能顺序读取”。
感觉我之前的做法你可以参考，不一定行得通。
我用 keras 训练图像模型的时候，是把所有图片都存储到 HDF5 ，存进去之后，open 这个超大的 HDF5 文件，只是打开一个指针不会占用内存，可以按照切片语法来读取数据，感觉用起来特别像一个存储在硬盘的 numpy 矩阵。切片读取的话，索引要保证去重，升序。如果你想随机读取数据，需要自己做下处理。
比如 HDF5 是 arr ，长度 100 ，现在随机读取 6,5,8,9,6 ，那么需要改成 arr[5,6,8,9],然后自己展开。