使用OpenAI的Whisper 模型进行语音识别

Whisper模型是在68万小时标记音频数据的数据集上训练的,其中包括11.7万小时96种不同语言的演讲和12.5万小时从”任意语言“到英语的翻译数据。该模型利用了互联网生成的文本,这些文本是由其他自动语音识别系统(ASR)生成而不是人类创建的。该数据集还包括一个在VoxLingua107上训练的语

BP神经网络

1.概念: BP(back propagation)即为反向传播,意为反向传播神经网络。

YOLOv5内置--hyp超参配置文件对比

YOLOv5内置--hyp超参配置文件对比YOLOv5有大约30个超参数用于各种训练设置。这些是在目录中*.yaml的文件中定义的/data。更好的初始猜测会产生更好的最终结果,因此在演化之前正确初始化这些值很重要。lr00.01#初始学习率(SGD=1E-2,Adam=1E-3)lrf0.01#最

【YOLOV5-6.x讲解】YOLO5.0VS6.0版本对比+模型设计

减少操作:使用SPPF()代替原本的SPP() 更好的导出性:将Focus()替换为一个等效的Conv(k=6,s=2,p=2) 提高速度:将backbone中的 P3 中的 C3() 从重复次数从9减少为6更新超参数:增加了 mixup 和 copy-paste 的数据增强在最后一个C3() 主干

强化学习领域值得关注的国际顶级会议

强化学习(Reinforcement Learning, RL),又称再励学习、评价学习或增强学习,是机器学习的范式和方法论之一,用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。今天给大家介绍几个强化学习领域值得关注的顶级会议。

Pytorch 中打印网络结构及其参数的方法与实现

pytorch 中打印网络结构及其参数的方法与实现

k210——Maixhub 云端模型训练

k210——Maixhub 云端模型训练

使用Tansformer分割三维腹部多器官--UNETR实战

不会 transformer 没关系,本教程开箱即用。Tina姐总算对transformer下手了,之前觉得难,因为刚开始学序列模型的时候就没学会。然后就一直排斥学transformer。这两周没什么事,加上MONAI有现成的教程,就打算先跑通后,再学理论。然后,顺利的跑通了代码,再学了一周理论,发

论文阅读笔记:ShuffleNet

背景由于深度学习模型结构越来越复杂,参数量也越来越大,需要大量的算力去做模型的训练和推理。然而随着移动设备的普及,将深度学习模型部署于计算资源有限基于ARM的移动设备成为了研究的热点。ShuffleNet[1]是一种专门为计算资源有限的设备设计的神经网络结构,主要采用了pointwise group

安装tensorflow-gpu 1.12.0

在NVIDIA RTX3090上安装tensorflow-gpu 1.12.0,期间涉及CUDA和cuDNN版本切换和安装tensorflow-gpu的过程中不断报错的问题。

yolov5 引入RepVGG模型结构

yolov5加入repvgg结构

GAN的损失函数

在训练过程中,生成器和判别器的目标是相矛盾的,并且这种矛盾可以体现在判别器的判断准确性上。生成器的目标是生成尽量真实的数据,最好能够以假乱真、让判别器判断不出来,因此生成器的学习目标是让判别器上的判断准确性;相反,判别器的目标是尽量判别出真伪,因此判别器的学习目标是让自己的判别准确性。当生成器生成的

【论文解读】Attentional Feature Fusion

Attentional Feature Fusion是一种使用多尺度上下文注意力方式来进行特征融合的方式。

【快速理解张量】通过torch.rand和举例通俗解释张量tensor

如何理解张量(tensor)成了深度学习路途中不可缺少的一步,讲真的,刚学习深度学习那会儿张量实在是困惑了自己很长一段时间,而这篇文章根据自己学习深度学习的历程给出了一个清晰通俗的解释,相比于官方教材给出了更容易让初学者更能理解的逻辑举例。如果你的张量理解程度还停留在只能想象出三维的张量维度的话,相

全景分割(Panoptic Segmentation)(CVPR 2019)

全景分割(Panoptic Segmentation)

猿创征文|信息抽取(2)——pytorch实现Bert-BiLSTM-CRF、Bert-CRF模型进行实体抽取

猿创征文|信息抽取(2)——pytorch实现Bert-BiLSTM-CRF、Bert-CRF模型进行实体抽取

KITTI数据集解析和可视化

文章链接概述KITTI数据集是目前国际上最大的自动驾驶场景下的计算机视觉算法评测数据集。该数据集用于评测立体图像(stereo),光流(optical flow),视觉测距(visual odometry),3D物体检测(object detection)和3D跟踪(tracking)等计算机视觉技

透彻分析Transformer中的位置编码(positional enconding)

Transformer中为什么要使用位置编码positional encoding