深度解析预训练权重的本质和作用:你真的了解它们吗?
为了训练自定义模型,通常需要使用大量标注好的图像数据来训练模型。但是,当可用的训练数据不够多时,可以使用预训练权重来提高模型的性能。
【学习笔记】部署yolov8到安卓手机
把yolov8部署到安卓手机哟,用手机软件也能进行检测啦
基于深度学习的图像配准
基于深度学习的图像配准技术
coco-annotator的安装与使用
COCO Annotator是一个基于web的图像标注工具,其多功能性和易用性旨在有效地标记图像,以创建用于图像定位和对象检测的训练数据。它提供了许多不同的功能,包括标记图像片段(或片段的一部分)、跟踪对象实例、标记具有断开的可见部分的对象、以COCO 格式有效存储和导出标注信息。
文本-图像生成(Text-to-Image Generation)的评价指标介绍——CLIPScore、TISE
文本到图像生成的评价指标综述
YOLOv5 + StrongSORT with OSNet
YOLOv5 + StrongSORT with OSNet:YOLOv5检测器 + StrongSORT跟踪算法 + OSNet行人重识别模型
OpenCV中的图像处理 —— 图像梯度+Canny边缘检测+图像金字塔
OpenCV中的图像处理 —— 图像梯度+Canny边缘检测+图像金字塔目录OpenCV中的图像处理 —— 图像梯度+Canny边缘检测+图像金字塔1. 图像梯度1.1 Sobel和Scharr算子1.2 Laplacian算子2. Canny边缘检测2.1 多阶段的Canny边缘检测算法
计算机视觉项目-文档扫描OCR识别
我们在日常生活或者办公中,可能都使用过万能扫描王这个软件,或者qq中的照片文字扫描功能,然后直接利用扒下来的文档直接复制粘贴直接使用,那么他这个原理是什么呢?又是怎么用OpenCV来实现的呢。我们这次博客就来全面介绍一下这个整体流程。并进行真实案例操作。我们要完成对于文档图片的扫描工作。大致流程主要
当下呼声最高的NeRF究竟是什么?
作为今年计算机视觉领域最火的AI技术,NeRF可谓是应用广泛,前景一片大好。
自动驾驶感知——激光雷达物体检测算法
点视图 | PointNet/PointNet++,Point-RCNN,3D-SSD俯视图 | VoxelNet,SECOND,PIXOR,AFDet前视图 | LaserNet,RangeDet多视图融合 (俯视图+点视图)|PointPillar,SIENet,PV-CNN多视图融合(俯
一文看懂膨胀(空洞)卷积(含代码)
详细说明了膨胀卷积(空洞卷积)的背景,特点,特点解释,计算,优缺点,代码
精确控制 AI 图像生成的破冰方案,ControlNet 和 T2I-Adapter
ControlNet 和 T2I-Adapter 的突破性在哪里?有什么区别?其它为 T2I 扩散模型施加条件引导的相关研究ControlNet 和 T2I-Adapter 的实际应用效果如何?使用体验上,跟 SD原生支持的 img2img 有什么区别?ControlNet 在插画创作上的潜力多种条
深度学习参数初始化(二)Kaiming初始化 含代码
Xavier初始化在ReLU层表现不好,主要原因是relu层会将负数映射到0,影响整体方差。而且Xavier初始化方法适用的激活函数有限:要求关于0对称;线性。而ReLU激活函数并不满足这些条件,实验也可以验证Xavier初始化确实不适用于ReLU激活函数。所以何恺明在对此做了改进,提出Kaimin
Openai神作Dalle2理论和代码复现
Openai神作Dalle2理论和代码复现
2022最新SLAM面试题汇总(持续更新中)
目前机器人SLAM问题是一个非常值得研究的方向,在未知环境中,首先要通过SLAM技术获得环境的地图,然后才能进行导航。这个方向是近几年比较新的研究方向,相关的机器人公司以及研究机器人的大厂也很需要SLAM方向的人才。...
RAW图像详解及使用Python读取raw格式图像并显示
RAW图像详解及使用Python读取raw格式图像并显示
【ZED】从零开始使用ZED相机(二):打开相机+捕获图像
引言关于ZED相机的安装和配置可以先参考【ZED】从零开始使用ZED相机(一):windows下的安装配置与测试,接下来开始二次开发ZED相机。阅读ZED API文档,选择自己使用的语言,学会相机的基本调用函数笔者建议:安装包的samples与官方文档配合使用效果更加必备导入库:import pyz
狗都能看懂的CenterNet讲解及代码复现
狗都能看懂的CenterNet讲解及代码复现
经典文献阅读之--PL-SLAM(点线SLAM)
之前作者基本都在围绕着特征点提取的路径在学习,最近看到了最近点云PCL推送的《Structure PLP-SLAM: Efficient Sparse Mapping and Localization using Point, Line and Plane for Monocular, RGB-D
基于SwinTransformer+UNet的遥感图像语义分割
目录摘要1.Introduction摘要全局上下文信息(context information)对于遥感图像的语义分割至关重要。然而,现有的大多数方法都依赖于卷积神经网络(CNN),由于卷积运算的局部性(locality),直接获取全局上下文信息充满了挑战性。受具有强大全局建模能力的Swin tra