opencv训练自己的模型,实现特定物体的识别
opencv安装包中有训练好的分类器文件,可以实现人脸的识别。当然,我们也可以训练自己的分类器文件,实现对特定物体的识别。本文章就详细介绍下如何训练自己的分类器文件。
语音识别(利用python将语音转化为文字)
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录前言一、申请讯飞语音端口1.点击链接进入讯飞平台主页面2.在页面注册自己的个人账户3.申请语音端口4.查看自己的端口编码二、python代码讲解1.引入库2.读入数据总结前言本篇博客讲述利用讯飞端口将语音转化为文字。一、申请讯飞
MMPose姿态估计+人体关键点识别效果演示
MMPose开源姿态估计算法库,进行了人体关键点的效果演示。(包括肢体,手部和全身的关键点,还尝试了MMPose实时效果)
NeRF 源码分析解读(一)
对 pytorch 版本的 NeRF 代码进行解析注释
Deformable DETR 实战(训练及预测)
Deformable DETR的训练及预测
OpenAI 开源语音识别模型 Whisper 初体验
Whisper 是一个自动语音识别(ASR,Automatic Speech Recognition)系统,OpenAI 通过从网络上收集了 68 万小时的多语言(98 种语言)和多任务(multitask)监督数据对 Whisper 进行了训练。OpenAI 认为使用这样一个庞大而多样的数据集,可
复现开源论文代码总结
复现开源论文代码总结
超详细的激光点云地面分割(可行驶区域提取)方案
超详细的激光点云地面分割(可行驶区域提取)方案
clip预训练模型综述
CLIP是一个预训练模型,就像BERT、GPT、ViT等预训练模型一样。首先使用大量无标签数据训练这些模型,然后训练好的模型就能实现,输入一段文本(或者一张图像),输出文本(图像)的向量表示。CLIP和BERT、GPT、ViT的区别在于,CLIP是多模态的,包含图像处理以及文本处理两个方面内容,而B
ABB机器人RobotStudio编程指令大全
程序的调用ProcCall调用例行程序CallByVar经过带变量的例行程序名称调用例行程序RETURN返回原例行程序例行程序内的逻辑控制CompactIF假如条件知足,就履行一条指令IF当知足不一样的条件时,履行对应的程序FOR依据指定的次数,重复履行对应的程序WHILE假如条件知足,重复履行对应
Intel Realsense D455深度相机的标定及使用(二)——对内置IMU和双目相机进行标定
标定前需先安装librealsense SDK2.0以及realsense-ros,可参考教程:Intel Realsense D455深度相机的标定及使用(一)——安装librealsense SDK2.0以及realsense-ros 插入相机并静置, 终端输入realsense-v
Anaconda与python对应版本的对照
Anaconda、Python、pycharm
使用MobileViT替换YOLOv5主干网络
相比较于其他的transformer变体,MobileViT这篇文章给出的改动技巧很简单高效,它解决的ViT中因为像素摊平操作导致的位置信息损失问题,将卷积的局部信息提取优势和自注意力机制的全局信息提取能力结合起来,并且根据论文描述具有高度轻量化+极快的推理速度,具体的大佬们自己去读读,本菜鸡好久之
注意力机制详解系列(二):通道注意力机制
本篇主要介绍注意力机制中的通道注意力机制,对通道注意力机制方法进行详细讲解,通道注意力机制在计算机视觉中,更关注特征图中channel之间的关系,重点对SENet、ECANe进行重点讲解。
fine-tuning(微调)的理解
介绍fine-tuning的过程就是用训练好的参数(从已训练好的模型中获得)初始化自己的网络,然后用自己的数据接着训练,参数的调整方法与from scratch训练过程一样(梯度下降)。对于初始化过程,我们可以称自己的网络为目标网络,训练好的模型对应网络为源网络,要求目标网络待初始化的层要与源网络的
U2-net网络详解
U2-net网络详解
【动手深度学习-笔记】注意力机制(四)自注意力、交叉注意力和位置编码
像这样的,查询、键和值来自同一组输入的注意力机制,被称为自注意力(self-attention)或者内部注意力(intra-attention)。总而言之,卷积神经网络和自注意力都拥有并行计算的优势,而且自注意力的最大路径长度最短。DETR中,为了保留特征的空间信息,没有将二维数据平铺为一维,而是分
Faster RCNN训练自己的数据集【傻瓜式教程】
Faster RCNN训练自己的数据集【傻瓜式教程】
yolov5网络结构代码解读
yolov5已经很成熟了,作为一个拥有发展系列的检测器,它拥有足够的精度和满足现实中实时性要求,所以许多项目和比赛都能用的上,自己也拿来参加过比赛。YOLOv5针对不同大小的输入和网络深度宽度,主要分成了(n, s, m, l, x)和(n6, s6, m6, l6, x6),这些都在yolov5的
DeepSpeed使用指南(简略版)
Zero Redundancy Optimizer (ZeRO)是DeepSpeed的workhorse. 用户可以提供不同的ZeRO config文件,来实现DeepSpeed的不同功能特性。来看一下官网教程对ZeRO的描述:一句话总结:,划分而不是复制。即,传统的深度学习,模型训练并行,是将模型