Pytorch训练模型损失Loss为Nan或者无穷大(INF)原因

常见原因-1一般来说,出现NaN有以下几种情况:相信很多人都遇到过训练一个deep model的过程中,loss突然变成了NaN。在这里对这个问题做一个总结:1.如果在迭代的100轮以内,出现NaN,一般情况下的原因是因为你的学习率过高,需要降低学习率。可以不断降低学习率直至不出现NaN为止,一般来

基于深度学习的自动调制识别(含代码链接)

AMR领域具有代表性的和新模型在四个不同的数据集(RML2016.10a, RML2016.10b, RML2018.01a, HisarMod2019.1)上的实现,为感兴趣的研究人员提供统一的参考。

YOLOv5、v7改进之二十六:改进特征融合网络PANet为ASFF自适应特征融合网络

在每个空间位置,将不同级别的特征自适应地融合在一起,例如:若某位置携带矛盾的信息,则这些特征将会被滤除,若某位置的特征带有更多的区分性线索,则这些特征将会被增强。解决问题:原YOLOv5模型特征融合网络为PANet,虽然较FPN能更好的融合不同尺度目标的特征,从而提升效果,但是还存在改进的空间,还有

《一文搞懂IoU发展历程》GIoU、DIoU、CIoU、EIoU、αIoU、SIoU

汇总IoU发展历程,建议收藏!

ConvLSTM时空预测实战代码详解

ConvLSTM代码复现

【swinUnet官方代码测试自己的数据集(已训练完毕)】

swinUnet官方代码测试自己的数据集

MMPose姿态估计+人体关键点识别效果演示

MMPose开源姿态估计算法库,进行了人体关键点的效果演示。(包括肢体,手部和全身的关键点,还尝试了MMPose实时效果)

NeRF 源码分析解读(一)

对 pytorch 版本的 NeRF 代码进行解析注释

Deformable DETR 实战(训练及预测)

Deformable DETR的训练及预测

复现开源论文代码总结

复现开源论文代码总结

clip预训练模型综述

CLIP是一个预训练模型,就像BERT、GPT、ViT等预训练模型一样。首先使用大量无标签数据训练这些模型,然后训练好的模型就能实现,输入一段文本(或者一张图像),输出文本(图像)的向量表示。CLIP和BERT、GPT、ViT的区别在于,CLIP是多模态的,包含图像处理以及文本处理两个方面内容,而B

使用MobileViT替换YOLOv5主干网络

相比较于其他的transformer变体,MobileViT这篇文章给出的改动技巧很简单高效,它解决的ViT中因为像素摊平操作导致的位置信息损失问题,将卷积的局部信息提取优势和自注意力机制的全局信息提取能力结合起来,并且根据论文描述具有高度轻量化+极快的推理速度,具体的大佬们自己去读读,本菜鸡好久之

注意力机制详解系列(二):通道注意力机制

本篇主要介绍注意力机制中的通道注意力机制,对通道注意力机制方法进行详细讲解,通道注意力机制在计算机视觉中,更关注特征图中channel之间的关系,重点对SENet、ECANe进行重点讲解。

fine-tuning(微调)的理解

介绍fine-tuning的过程就是用训练好的参数(从已训练好的模型中获得)初始化自己的网络,然后用自己的数据接着训练,参数的调整方法与from scratch训练过程一样(梯度下降)。对于初始化过程,我们可以称自己的网络为目标网络,训练好的模型对应网络为源网络,要求目标网络待初始化的层要与源网络的

图像中的注意力机制详解(SEBlock | ECABlock | CBAM)

图像中的注意力机制详解注意力机制目前主要有通道注意力机制和空间注意力机制两种一、 前言我们知道,输入一张图片,神经网络会提取图像特征,每一层都有不同大小的特征图。如图1所示,展示了 VGG网络在提取图像特征时特征图的大小变化。图1 VGG网络特征结构图其中,特征图常见的矩阵形状为[C,H,W]{[C

U2-net网络详解

U2-net网络详解

学习Transformer:自注意力与多头自注意力的原理及实现

自从Transformer[3]模型在NLP领域问世后,基于Transformer的深度学习模型性能逐渐在NLP和CV领域(Vision Transformer)取得了令人惊叹的提升。本文的主要目的是介绍经典Transformer模型和Vision Transformer的技术细节及基本原理,以方便

【动手深度学习-笔记】注意力机制(四)自注意力、交叉注意力和位置编码

像这样的,查询、键和值来自同一组输入的注意力机制,被称为自注意力(self-attention)或者内部注意力(intra-attention)。总而言之,卷积神经网络和自注意力都拥有并行计算的优势,而且自注意力的最大路径长度最短。DETR中,为了保留特征的空间信息,没有将二维数据平铺为一维,而是分

DeepSpeed使用指南(简略版)

Zero Redundancy Optimizer (ZeRO)是DeepSpeed的workhorse. 用户可以提供不同的ZeRO config文件,来实现DeepSpeed的不同功能特性。来看一下官网教程对ZeRO的描述:一句话总结:,划分而不是复制。即,传统的深度学习,模型训练并行,是将模型

【CBAM 解读】混合注意力机制:Convolutional Block Attention Module

本文提出了卷积块注意模块(CBAM),这是一种简单而有效的前馈卷积神经网络注意模块。