0


PyTorch训练“WARNING:root:NaN or Inf found in input tensor”问题

问题

使用PyTorch训练开始时报以下警告:

WARNING:root:NaN or Inf found in input tensor

训练中也会偶尔再报同样的警告,但是似乎不影响正常训练。

分析

查了一下其他人也有报这个警告的情况,一般的解释都是模型训练过程中出现梯度消失或者梯度爆炸,或者数据中或数据处理过程中出现了脏数据。但是经过调试,发现不管是改大改小学习率都仍然出现此警告,抓取脏数据也抓取不到,在数据集的构造、网络的计算中也都没有发现脏数据。

分步调试后发现该警告出现在第一个epoch结束之后,即train和validation的正向和反向传播都完成之后。怀疑是在tensorboardX使用中的问题(这个issue也被怀疑是tensorboard的问题:NaN or Inf found in input tensor #223),于是仔细检查了tensorboardX语句中可能出现问题的部分。发现有一处add_image中输入的image值超过了1,于是将这一句注释掉再运行,果然不报警告了。

结论

除了模型训练过程中出现梯度消失或者梯度爆炸,或者数据中或数据处理过程中出现了脏数据,还有可能是tensorboardX使用中数据格式不符合规范。


本文转载自: https://blog.csdn.net/ya6543/article/details/125616949
版权归原作者 ya6543 所有, 如有侵权,请联系我们删除。

“PyTorch训练“WARNING:root:NaN or Inf found in input tensor”问题”的评论:

还没有评论