【swinUnet官方代码测试自己的数据集(已训练完毕)】
swinUnet官方代码测试自己的数据集
MMPose姿态估计+人体关键点识别效果演示
MMPose开源姿态估计算法库,进行了人体关键点的效果演示。(包括肢体,手部和全身的关键点,还尝试了MMPose实时效果)
NeRF 源码分析解读(一)
对 pytorch 版本的 NeRF 代码进行解析注释
Deformable DETR 实战(训练及预测)
Deformable DETR的训练及预测
复现开源论文代码总结
复现开源论文代码总结
clip预训练模型综述
CLIP是一个预训练模型,就像BERT、GPT、ViT等预训练模型一样。首先使用大量无标签数据训练这些模型,然后训练好的模型就能实现,输入一段文本(或者一张图像),输出文本(图像)的向量表示。CLIP和BERT、GPT、ViT的区别在于,CLIP是多模态的,包含图像处理以及文本处理两个方面内容,而B
使用MobileViT替换YOLOv5主干网络
相比较于其他的transformer变体,MobileViT这篇文章给出的改动技巧很简单高效,它解决的ViT中因为像素摊平操作导致的位置信息损失问题,将卷积的局部信息提取优势和自注意力机制的全局信息提取能力结合起来,并且根据论文描述具有高度轻量化+极快的推理速度,具体的大佬们自己去读读,本菜鸡好久之
注意力机制详解系列(二):通道注意力机制
本篇主要介绍注意力机制中的通道注意力机制,对通道注意力机制方法进行详细讲解,通道注意力机制在计算机视觉中,更关注特征图中channel之间的关系,重点对SENet、ECANe进行重点讲解。
fine-tuning(微调)的理解
介绍fine-tuning的过程就是用训练好的参数(从已训练好的模型中获得)初始化自己的网络,然后用自己的数据接着训练,参数的调整方法与from scratch训练过程一样(梯度下降)。对于初始化过程,我们可以称自己的网络为目标网络,训练好的模型对应网络为源网络,要求目标网络待初始化的层要与源网络的
图像中的注意力机制详解(SEBlock | ECABlock | CBAM)
图像中的注意力机制详解注意力机制目前主要有通道注意力机制和空间注意力机制两种一、 前言我们知道,输入一张图片,神经网络会提取图像特征,每一层都有不同大小的特征图。如图1所示,展示了 VGG网络在提取图像特征时特征图的大小变化。图1 VGG网络特征结构图其中,特征图常见的矩阵形状为[C,H,W]{[C
U2-net网络详解
U2-net网络详解
学习Transformer:自注意力与多头自注意力的原理及实现
自从Transformer[3]模型在NLP领域问世后,基于Transformer的深度学习模型性能逐渐在NLP和CV领域(Vision Transformer)取得了令人惊叹的提升。本文的主要目的是介绍经典Transformer模型和Vision Transformer的技术细节及基本原理,以方便
【动手深度学习-笔记】注意力机制(四)自注意力、交叉注意力和位置编码
像这样的,查询、键和值来自同一组输入的注意力机制,被称为自注意力(self-attention)或者内部注意力(intra-attention)。总而言之,卷积神经网络和自注意力都拥有并行计算的优势,而且自注意力的最大路径长度最短。DETR中,为了保留特征的空间信息,没有将二维数据平铺为一维,而是分
DeepSpeed使用指南(简略版)
Zero Redundancy Optimizer (ZeRO)是DeepSpeed的workhorse. 用户可以提供不同的ZeRO config文件,来实现DeepSpeed的不同功能特性。来看一下官网教程对ZeRO的描述:一句话总结:,划分而不是复制。即,传统的深度学习,模型训练并行,是将模型
【CBAM 解读】混合注意力机制:Convolutional Block Attention Module
本文提出了卷积块注意模块(CBAM),这是一种简单而有效的前馈卷积神经网络注意模块。
Repvgg详解及其实现(pytorch)
原论文中的结构图很直观的展示了repvgg到底是什么意思,对比Resnet它仍然有着类似残差的结构,就是在3*3的卷积基础上弄了一个1*1的分支和一个identity分支(在步长不等于2且输入输出通道相等的情况下),这样除了方便推理过程的融合,似乎还有多分支的好处,因为有丰富的梯度信息(狗头保命),
对Transformer中Add&Norm层的理解
首先我们还是先来回顾一下Transformer的结构:Transformer结构主要分为两大部分,一是Encoder层结构,另一个则是Decoder层结构,Encoder 的输入由 Input Embedding 和 Positional Embedding 求和输入Multi-Head-Atten
YOLOv5 6.0/6.1结合ASFF
YOLO小白纯干货分享!!!YOLOv5 6.0/6.1结合ASFF。本人在多个数据集上做了大量实验,针对不同的数据集效果不同,需要大家进行实验。有效果有提升的情况占大多数。最后,希望能互粉一下,做个朋友,一起学习交流。
2023年3月的10篇论文推荐
本文整理的是本月应该阅读的10篇论文,将包括多模态语言模型、扩散模型、机器翻译等主题。
图像超分辨率重建(pytorch)
本文在原论文的基础上进行了代码补充,并提供了整个流程的代码运行方法以完成图像超分辨率工作。