人工智能深度学习

Pytorch 多GPU训练

overfit同步小助手 2023-07-29 03:02:09 0 收藏

Darknet53详细原理（含torch版源码）

Darknet53详细原理（含torch版源码）—— cifar10

overfit同步小助手 2023-07-28 16:02:20 0 收藏

MSELoss详解+避坑指南

overfit同步小助手 2023-07-28 16:01:54 0 收藏

【YOLOX简述】

YOLOX简述

overfit同步小助手 2023-07-28 14:01:36 0 收藏

YOLOv7改进：在不同位置添加biformer

为了缓解多头自注意力()的可扩展性问题，先前的一些方法提出了不同的稀疏注意力机制，其中每个查询只关注少量的键值对，而非全部。为此，作者探索了一种动态的、查询感知的稀疏注意力机制，其关键思想是在粗糙区域级别过滤掉大部分不相关的键值对，以便只保留一小部分路由区域（这不就把冗余的信息干掉了吗老铁们）。其次

overfit同步小助手 2023-07-28 13:02:14 0 收藏

图注意力网络论文详解和PyTorch实现

图注意力网络(GAT)[1]是一类特殊的gnn，主要的改进是消息传递的方式。他们引入了一种可学习的注意力机制，通过在每个源节点和目标节点之间分配权重，

Deephub 2023-07-28 12:47:05 0 收藏

dropout层简介

这就是dropout层的思想了，**为什么dropout能够用于防止过拟合呢？**因为约大的神经网络就越有可能产生过拟合，因此我们随机删除一些神经元就可以防止其过拟合了，也就是让我们拟合的结果没那么准确。dropout顾名思义就是被拿掉的意思，正因为我们在神经网络当中拿掉了一些神经元，所以才叫做dr

overfit同步小助手 2023-07-28 08:02:13 0 收藏

A30、V100性能测试对比报告

共压80000数据，同时请求500数据。

overfit同步小助手 2023-07-28 07:01:57 0 收藏

ChatGPT如何训练自己的模型

这些数据集可以来自英文、中文和其他语言的数据集，但需要注意的是，由于ChatGPT是一个生成式模型，所以需要保证数据集中的对话质量和语言质量较高，否则影响对话的质量。总之，训练一个高品质的ChatGPT模型需要高质量的对话数据集、有效的数据预处理、强大的训练环境、合适的训练方法、有效的模型评估等多个

overfit同步小助手 2023-07-28 00:02:12 0 收藏

重新理解一个类中的forward()和init()函数

return out在上面的代码中，我们定义了一个名为SimpleNet的神经网络模型，它继承自 PyTorch 中的nn.Module类。我们在__init__()方法中定义了三层网络结构，分别是输入层fc1、激活层relu和输出层fc2。其中，输入层和输出层都使用了全连接层（nn.Linear）

overfit同步小助手 2023-07-27 20:01:56 0 收藏

pytorch交换tensor的指定维度

pytorch中有两种方式可以实现tensor指定维度的交换，第一个是torch.permute()，第二个方法是torch.transpose()。二者不同是torch.permute()可以同时交换多个维度，而torch.transpose()每次只能交换两个维度。

overfit同步小助手 2023-07-27 19:02:20 0 收藏

DeepSpeed-MoE:训练更大及更复杂的混合专家网络

这是微软发布在**2022 ICML**的论文，MoE可以降低训练成本，但是快速的MoE模型推理仍然是一个未解决的问题。所以论文提出了一个端到端的MoE训练和推理解决方案DeepSpeed-MoE：它包括新颖的MoE架构设计和模型压缩技术，可将MoE模型大小减少3.7倍；

Deephub 2023-07-27 09:49:11 0 收藏

yolov7使用onnx推理（带&不带NMS）

上个月，官方放了个使用onnx推理的ipynb文件，过了几天上去看，官方又给删了，不知道是不是要更新波大的，还好手快保存了一份，这个可以作为备忘，懒得再重新写（不过这得是多懒。熟悉yolo系列的朋友应该看出上面的问题了，没有NMS，这是因为官方代码在导出onnx的时候做了简化和端到端的处理。如果单纯

overfit同步小助手 2023-07-27 06:02:06 0 收藏

推荐一个最近刚出的比较全面的多模态综述：Multimodal Deep Learning

多模态综述：Multimodal Deep Learning。对多模态、CV 和 NLP 领域中一些任务的数据集、模型、评价指标等等都做了较详细的介绍和总结。是个非常不错的综述，内容较全面且详细。

overfit同步小助手 2023-07-27 02:01:58 0 收藏

transformers库中的.from_pretrained()

Transformers库中的预训练模型加载函数.from_pretrained()

overfit同步小助手 2023-07-27 00:01:48 0 收藏

AI绘图之DDIM 与 DDPM

为了加速采样，我们提出了去噪扩散隐式模型 (DDIM)，这是一类更有效的迭代隐式概率模型，其训练过程与 DDPM 相同。在 DDPM 中，生成过程被定义为马尔可夫扩散过程的逆过程。我们凭经验证明，与 DDPM 相比，DDIM 可以在挂钟时间方面快 10 倍到 50 倍的速度生成高质量样本，允许我们权

overfit同步小助手 2023-07-26 19:02:22 0 收藏

BART模型简单介绍

对于序列分类任务（如文本情感分类），BART模型的编码器与解码器使用相同的输入，将解码器最终时刻的隐含层状态作为输入文本的向量表示，并输入至多类别线性分类器中，再利用该任务的标注数据精调模型参数。与BERT模型的 [CLS] 标记类似，BART模型在解码器的最后时刻额外添加一个特殊标记，并以该标记的

overfit同步小助手 2023-07-26 14:02:18 0 收藏

Huggingface的from pretrained的下载代理服务器方法设置

笔者需要用到下载预训练模型，但是此时TUNA和BSFU的镜像已经停止了，希望有可用的途径下载到位于网上的预训练模型。根据文档，该参数proxies (Dict, optional)在StackOverflow有类似解决方法。此时查找了huggingface的文档。即可代理http(s)流量。

overfit同步小助手 2023-07-26 13:01:39 0 收藏

注意力机制——ECANet（Efficient Channel Attention Network）

ECANet注意力机制是针对通道维度的注意力加权机制。它的基本思想是，通过学习通道之间的相关性，自适应地调整通道的权重，以提高网络的性能。ECANet通过两个步骤实现通道注意力加权： 1.提取通道特征 2.计算通道权重。）是一种新颖的注意力机制，用于深度神经网络中的

overfit同步小助手 2023-07-26 12:01:57 0 收藏

2023年发布的25个开源大型语言模型总结

本文总结了当前可用的开源llm的全部（几乎全部）列表，以及有关其许可选项和源代码存储库的信息，希望对你有所帮助

Deephub 2023-07-26 10:02:05 0 收藏

登录可以使用的更多功能哦！登录

OpenCV Python Pytorch Tensorflow 强化学习搜索和推荐数据分析数据挖掘机器学习概率论深度学习目标检测神经网络线性代数结构化数据自动驾驶自然语言处理计算机视觉语义分割语音识别