Text to image论文精读GigaGAN: 生成对抗网络仍然是文本生成图像的可行选择

GigaGAN是Adobe和卡内基梅隆大学学者们提出的一种新的GAN架构,作者设计了一种新的GAN架构,推理速度、合成高分辨率、扩展性都极其有优势,其证明GAN仍然是文本生成图像的可行选择之一。

图像处理-特征融合:相加、拼接、Attention

图像处理-特征融合:相加、拼接、Attention特征融合是指来自不同层或分支的特征的组合,是现代网络体系结构中很常见的一种操作。图像处理的特征融合中,对于普遍的多尺度融合,广泛操作是直接将他们相加或者拼接起来!即通常通过简单的操作(例如求和或串联)来实现,但是,这不一定是最佳选择。随着Transf

(笔记)ubuntu20.04下 yolov5学习与使用

等到数据训练好了以后,就会在主目录下产生一个run文件夹,在run/train/exp/weights目录下会产生两个权重文件,一个是最后一轮的权重文件,一个是最好的权重文件,一会我们就要利用这个最好的权重文件来做推理测试。对视频进行测试,和如上的图片的测试是一样的,只不过是将图片的路径改为视频的路

【翻译】图解Stable Diffusion

扩散”指的是下图中粉色这一块组件“图像信息生成器”中发生的处理过程。该组件获取能表示输入文本信息的token嵌入和一个随机初始化的图像信息张量(aka 潜变量),然后用它们生成一个信息张量,把这个信息张量交给图像解码器,去生成最终的图像。这个过程是一步一步进行的,逐步添加相关信息。想更直观的了解这个

可分离卷积(Separable convolution)详解

可分离卷积包括空间可分离卷积(Spatially Separable Convolutions)和深度可分离卷积(depthwise separable convolution)。

【深度学习】详解 MAE

【深度学习】详解 MAE - Masked Autoencoders Are Scalable Vision Learners

Segment Anything CV界的GPT—prompt-based里程碑式研究成果

Segment Anything由Meta AI发布,估计将成为计算机视觉界颠覆性成果,甚至可能重塑“计算机视觉”的概念。本文主要描述Segment AI的研究成果和简单应用,简明扼要提取有关论文的信息。

【一文足以系列】ORB SLAM2完整详细算法流程

逻辑详细且严密的讲述了ORBSLAM2的算法流程

超越ShuffleNet、MobileNet、MobileViT等模型的新backbone FasterNet

为了设计快速神经网络,许多工作都集中在减少浮点运算(FLOPs)的数量上。然而,作者观察到FLOPs的这种减少不一定会带来延迟的类似程度的减少。这主要源于每秒低浮点运算(FLOPS)效率低下。为了实现更快的网络,作者重新回顾了FLOPs的运算符,并证明了如此低的FLOPS主要是由于运算符的频繁内存访

语义分割数据集:Cityscapes的使用

本文主要介绍Cityscapes在语义分割方向上的理解和使用。其中包括Cityscapes具体构建流程和使用方法。并提供了具体代码和pytorch dataset代码。

树莓派+MediaPipe+PCA9685+自制摄像机云台实现人脸跟踪移动

利用几十块钱的机械臂自制了一个摄像头云台,使用了两个MG90S舵机和一块PCA9685驱动的16路舵机扩展板,再通过谷歌的MediaPipe库实现摄像机跟随人脸移动的功能

【论文笔记】—低光图像增强—Supervised—URetinex-Net—2022-CVPR

【题目】:URetinex-Net: Retinex-based Deep Unfolding Network for Low-light Image Enhancement 提出了一种基于Retinex的 deep unfolding network (URetinex-Net),它将一个优化问题

Disco Diffusion 快速入门

Disco Diffusion(DD)是一个CLIP指导的AI图像生成技术,简单来说,Diffusion是一个对图像不断去噪的过程,而CLIP模型负责对图像的文本描。

【OpenCv • c++】 大津法(OTSU)阈值处理

在图像处理中,对于同样的操作,处理灰度图像的计算量要远远小于处理彩色图像,而二值图像(只含灰度值0或1)的计算量比前两者更小。因此,二值化操作在图像处理中有着很大的作用。二值化图像的实现方法有很多。用的最多的方法是利用图像像素点分布规律,设置阈值进行像素点分割,从而得到二值化图像。

torch.load() 、torch.load_state_dict() 详解

torch.load() 、torch.load_state_dict() 详解

基于Python手动实现Harris角点检测

基于Python手动实现Harris角点检测算法

OpenCV函数大全(超级详细版)-python操作

OpenCV函数大全(超级详细版)方便大家学习。

Opencv实战——图像拼接

  图像拼接(Image Stitching)是一种利用实景图像组成全景空间的技术,它将多幅图像拼接成一幅大尺度图像或360度全景图,接可以看做是场景重建的一种特殊情况,其中图像仅通过平面单应性进行关联。图像拼接在运动检测和跟踪,增强现实,分辨率增强,视频压缩和图像稳定等机器视觉领域有很大的应用。 

深度学习参数初始化(一)Xavier初始化 含代码

Xavier初始化也称为Glorot初始化,因为发明人为Xavier Glorot。Xavier initialization是 Glorot 等人为了解决随机初始化的问题提出来的另一种初始化方法,他们的思想就是尽可能的让输入和输出服从相同的分布,这样就能够避免后面层的激活函数的输出值趋向于0。..

可视化CNN和特征图

卷积神经网络(cnn)是一种神经网络,通常用于图像分类、目标检测和其他计算机视觉任务。CNN的关键组件之一是特征图,它是通过对图像应用卷积滤波器生成的输入图像的表示。