深入学习海量数据集

作者: 哎？小查查
发布时间: 2024-04-19 02:37:03 (16天前)
转自：

2 条回复

0#
回复此人
子阳 | 2019-08-31 10-32

<div class =“post-text”itemprop =“text”> <P> 当你提到“将大量数据集装入内存”时，我知道你正试图立即将所有数据加载到内存并开始训练。因此，我基于这个假设给出答复。 </p> <P> 一般的心态是，如果您无法将数据与资源相匹配，请将数据划分为较小的块并以迭代方式进行训练。 </p> <P> 1-逐个加载数据，而不是一次性加载所有数据。如果您将执行工作流创建为“加载数据 - ＆gt;培训 - ＆gt;发布数据（这可以由垃圾收集器自动完成） - ＆gt;重新启动”，您可以了解培训单个数据需要多少资源。 </p> <P> 2-使用小批量。一旦从＃1获得资源信息，您就可以轻松计算估计小批量大小。例如，如果训练单个数据消耗1.5 GB的RAM，并且您的GPU有8 GB的RAM，理论上您可以同时训练大小为5的小批量。 </p> <P> 3-如果资源不足以培训1个单一批次，在这种情况下，您可以考虑增加PC容量或降低模型容量/层/功能。或者，您可以选择云计算解决方案。 </p> </DIV>

编辑

登录后才能参与评论