使用计算机视觉和深度学习创建现代 OCR 管道
文档扫描仪可以使用手机拍照并[“扫描”]收据和发票等项目。我们的移动文档扫描仪仅输出图像 - 就计算机而言,图像中的任何文本都只是一组像素,无法复制粘贴,搜索或您可以对文本执行的任何其他操作。因此,需要应用光学字符识别或OCR。此过程从我们的文档扫描图像中提取实际文本。运行 OCR 后,我们可以为
YOLOv5中的SPP/SPPF结构详解
深度学习入门小菜鸟,希望像做笔记记录自己学的东西,也希望能帮助到同样入门的人,更希望大佬们帮忙纠错啦~侵权立删。目录一、SPP的应用的背景二、SPP结构分析三、YOLOv5中SPP结构源码解析(内含注释分析)一、SPP的应用的背景在卷积神经网络中我们经常看到固定输入的设计,但是如果我们输入的不能是固
【深度学习】AI一键换天
基于视觉的视频天空替换和协调方法,该方法可以在具有可控风格的视频中自动生成逼真的天空背景。与以前的天空编辑方法专注于静态照片或需要集成在智能手机中的惯性测量装置拍摄视频不同,该方法完全基于视觉,对捕获设备没有任何要求,并且可以很好地应用于在线或离线处理场景。......
【深度学习前沿应用】图像风格迁移
【深度学习前沿应用】图像风格迁移,基于百度飞桨开发,参考于《机器学习实践》所作。
使用Stable-Diffusion生成视频的完整教程
本文是关于如何使用cuda和Stable-Diffusion生成视频的完整指南,将使用cuda来加速视频生成,并且可以使用Kaggle的TESLA GPU来免费执行我们的模型。
7个流行的强化学习算法及代码实现
目前流行的强化学习算法包括 Q-learning、SARSA、DDPG、A2C、PPO、DQN 和 TRPO。 这些算法已被用于在游戏、机器人和决策制定等各种应用中,并且这些流行的算法还在不断发展和改进,本文我们将对其做一个简单的介绍。
YOLOV5 代码复现以及搭载服务器运行
文章目录前言一、YOLO简介二、代码下载三、数据集准备四、配置文件的修改1.data下的yaml2.models下的yaml3.训练train五、搭载服务器训练1.上传数据2.租服务器3.pycharm连接服务器1.添加ssh2.输入密码3.配置服务器环境路径跟代码映射路径4.解压数据5.开始训练6
cpu和gpu已过时,npu和apu的时代开始
🌎CPU是中央处理器。其实就是机器的“大脑”,也是布局谋略、发号施令、控制行动的“总司令官”。CPU的结构主要包括运算器(ALU,ArithmeticandLogicUnit)、控制单元(CU,ControlUnit)、寄存器(Register)、高速缓存器(Cache)和它们之间通讯的数据、控制
对抗生成网络(GAN)中的损失函数
L1损失函数又称为MAE(mean abs error),即平均绝对误差,也就是预测值和真实值之间差值的绝对值。 L2损失函数又称为MSE(mean square error),即平均平方误差,也就是预测值和真实值之间差值的平方。
2023 年8个ChatGPT 的替代品
OpenAI 于 2022 年 11 月下旬推出的 ChatGPT 在网络世界引起了不小的轰动。其实还有许多其他的机器人在本文中,我将整理8 个 ChatGPT 替代方案。
8种时间序列分类方法总结
对时间序列进行分类是应用机器和深度学习模型的常见任务之一。本篇文章将涵盖 8 种类型的时间序列分类方法。这包括从简单的基于距离或间隔的方法到使用深度神经网络的方法。这篇文章旨在作为所有时间序列分类算法的参考文章。
【深度学习】(五)目标检测——下篇
上一章介绍了目标检测上篇,主要为两阶段检测的R-CNN系列。这一章来学习一下目标检测下篇。R-CNN系列算法面临的一个问题,不是端到端的模型,几个构件拼凑在一起组成整个检测系统,操作起来比较复杂。而今天介绍的YOLO算法,操作简便且速度快,效果也不错。YOLO算法是一种典型的one-stage方法,
Hugging Face快速入门(重点讲解模型(Transformers)和数据集部分(Datasets))
1. Hugging Face是什么,提供了哪些内容2. Hugging Face模型的使用(Transformer类库)3. Hugging Face数据集的使用(Datasets类库)
torch.nn.Parameter()函数的讲解和使用
torch.nn.Parameter()函数的讲解和使用
CUDA error: device-side assert triggered
原因1:模型大小不匹配在定义模型的最终全连接层时,我没有将 196(斯坦福汽车数据集的类总数)作为输出单元的数量,而是使用了 195。错误通常在您执行反向传播的行中识别。您的损失函数将比较模型的输出和数据集中该观察的标签。万一您对标签和输出感到困惑,请参阅下面我如何定义它们:原因2:损失函数输入错误
深度学习基础宝典---激活函数、Batch Size、归一化
深度学习基础宝典---激活函数、Batch Size、归一化
Anaconda下载及安装(图文)
①官网下载安装包:下载地址:https://www.anaconda.com/products/distribution。
基于kaggle数据集的猫狗识别(超详细版本)
基于kaggle数据集的猫狗识别(超详细版本),包含利用数据增强生成器显示图像、利用数据增强生成器训练卷积神经网络,直接可实现编译的完整代码
深度学习中高斯噪声:为什么以及如何使用
在数学上,高斯噪声是一种通过向输入数据添加均值为零和标准差(σ)的正态分布随机值而产生的噪声。
目标检测算法——YOLOv5/YOLOv7改进之GSConv+Slim Neck(优化成本)
目标检测算法——YOLOv5/YOLOv7改进之GSConv+Slim Neck,作者提出了一种新方法GSConv来减轻模型的复杂度并保持准确性。GSConv可以更好地平衡模型的准确性和速度。并且,提供了一种设计范式Slim Neck,以实现检测器更高的计算成本效益。实验过程中,与原始网络相比,改进