YOLOv6算法新鲜出炉--训练自己数据集过程
YOLOv6算法背景:YOLOv6 是美团视觉智能部研发的一款目标检测框架,致力于工业应用。本框架同时专注于检测的精度和推理效率,在工业界常用的尺寸模型中:YOLOv6-nano 在 COCO 上精度可达 35.0% AP,在 T4 上推理速度可达 1242 FPS;YOLOv6-s 在 COCO
CS231n-2022 Module1: 神经网络要点概述(2)
本文编译自斯坦福大学的CS231n课程(2022) Module1课程中神经网络部分的内容: 【1】Neural Networks Part 2: Setting up the Data and the Loss To be added.
Yolov5网络修改教程(将backbone修改为EfficientNet、MobileNet3、RegNet等)
在我的本科毕业论文中,我使用了Yolov5,并尝试对其更改。可以对Yolov5进行一定程度的定制化修改,例如更轻量级的Yolov5-MobileNetv3 或者比Yolov5s更好的(存疑,没有跑过大数据集,可自己实验)Yolov5-EfficientNet。......
深度学习---三好学生各成绩所占权重问题(2)
深度学习---三好学生各成绩所占权重问题,训练神经网络
爆火的Transformer,到底火在哪?
与传统的 Soft Attention相比, Self-Attention 可有效缩短远距离依赖特征之间的距离,更容易捕获时间序列数据中相互依赖的特征,在大多数实际问题中,Self-Attention 更被研究者们所青睐,并具有更加优异的实际表现。完全不依赖于RNN结构仅利用Attention机制的
Pytorch(二) —— 激活函数、损失函数及其梯度
δ(x)=11+e−xδ′(x)=δ(1−δ)\delta(x)=\frac{1}{1+e^{-x}}\\\delta'(x)=\delta(1-\delta)δ(x)=1+e−x1δ′(x)=δ(1−δ)tanh(x)=ex−e−xex+e−x∂tanh(x)∂x=1−tanh2(x)tanh(
【深度学习】(2) Transformer 网络解析,代码复现,附Pytorch完整代码
今天和各位分享一下如何使用 Pytorch 构建 Transformer 模型。本文的重点在代码复现,部分知识点介绍的不多,我会在之后的四篇博文中详细介绍 Encoder,Decoder,(Mask)MutiHeadAttention,以及实战案例。之前我也介绍过 Vision Tranformer
时间序列预测系列文章总结(代码使用方法)
时间序列预测系列文章总结(代码使用方法)
Keras深度学习实战(12)——面部特征点检测
面部关键点的定位通常是许多面部分析方法和算法中的关键步骤。在本节中,我们介绍了如何通过训练卷积神经网络来检测面部的关键点,首先通过预训练模型提取特征,然后利用微调模型预测图像中人物的面部关键点。......
YOLO系列梳理(九)初尝新鲜出炉的YOLOv6
近日,美团视觉智能部开源了YOLOv6的框架。YOLOv4、YOLOv5更多是注重于数据增强,而对网络结构的改动则比较少。和YOLOv4、YOLOv5不同,YOLOv6对网络结构的改动还是蛮大的。
YOLOv6又快又准的目标检测框架 已开源
YOLOv6又快又准的目标检测框架 已开源
100+数据科学面试问题和答案总结 - 机器学习和深度学习
来自Amazon,谷歌,Meta, Microsoft等的面试问题,本文接着昨天的文章整理了机器学习和深度学习的问题
期末复习【机器学习】
期末复习【机器学习】
基于BP神经网络识别手写字体MINST字符集
问题描述: 本次实验所要解决的问题是使用人工神经网络实现识别手写字体。实验采用MINST手写字符集作为识别对象。其中60000张作为训练集,剩余10000张作为测试集。实验采用python语言进行编程,使用到一些python的第三方库。使用的神经网络模型为BP神经网络,这是一种按照误差逆向传播算法
神经网络-最大池化的使用
池化层的官方文档中介绍了很多种的池化方法,但是最常用的还是MaxPool2d,这里我们也用MaxPool2d来讲解,其他的类似,关键还是要学会看官方文档概述:最大池化目的就是为了保留输入的特征,但是同时把数据量减少,最大池化之后数据量就减少了,对于整个网路来说,进行计算的参数就变少了,就会训练的更快
【yolov4】基于yolov4深度学习网络目标检测MATLAB仿真
YOLO发展至YOLOv3时,基本上这个系列都达到了一个高潮阶段,很多实际任务中,都会见到YOLOv3的身上,而对于较为简单和场景,比如没有太密集的目标和极端小的目标,多数时候仅用YOLOv2即可。除了YOLO系列,也还有其他很多优秀的工作,比如结构同样简洁的RetinaNet和SSD。后者SSD其
分享本周所学——人工智能语音识别模型CTC、RNN-T、LAS详解
本人是一名人工智能初学者,最近一周学了一下AI语音识别的原理和三种比较早期的语音识别的人工智能模型,就想把自己学到的这些东西都分享给大家,一方面想用浅显易懂的语言让大家对这几个模型有所了解,另一方面也想让大家能够避免我所遇到的一些问题。然后因为我也只是一名小白,所以有错误的地方还希望大佬们多多指正。
使用“BERT”作为编码器和解码器(BERT2BERT)来改进Seq2Seq文本摘要模型
BERT是一个著名的、强大的预先训练的“编码器”模型。让我们看看如何使用它作为“解码器”来形成编码器-解码器架构。
基于CNN-RNN的医疗文本生成
本项目使用经过IMAGENET预训练的resnet101网络图像特征进行提取后,将图像特征输入LSTM来生成影像的文本描述。初步实现了图像到文本的简单生成。
评估和选择最佳学习模型的一些指标总结
在评估模型时,虽然准确性是训练阶段模型评估和应用模型调整的重要指标,但它并不是模型评估的最佳指标,我们可以使用几个评估指标来评估我们的模型。