深度学习 - overfit.cn

RWKV: 与Transformer和Mamba掰掰手腕的小家碧玉

开源项目RWKV是一个“具有 GPT 级别LLM性能的RNN，也可以像transformer并行训练。它主要是解决了Transformer的高成本。注意力机制是 Transformer 霸权背后的驱动力之一。

overfit同步小助手 2024-09-02 15:01:36 0 收藏

家用消费级显卡玩转大模型超简单，一看就懂，一学就会

这篇文章主要介绍了如下内容：模型量化，包括转换为gguf格式如何通过Ollama部署运行模型通过这篇文章，你可以将一个很大的模型文件转换为一个相对很小的模型文件，并部署运行起来，运行速度可以大大提升，消费级显卡也可以无压力运行。

overfit同步小助手 2024-09-02 14:01:07 0 收藏

【无线感知】【P7】WIFI 感知实战2- 数据集处理

slide_size = 200 （滑动窗口，帧与帧之间存在overlap,less than window_size!1：先通过 csv_import 提取训练input,label 到txt(只运行一次,大概18分钟）运行 cross_vali_data_convert_merg

overfit同步小助手 2024-09-02 10:01:29 0 收藏

CNN中的注意力机制综合指南：从理论到Pytorch代码实现

本文将全面介绍CNN中的注意力机制，从基本概念到实际实现，为读者提供深入的理解和实践指导。

Deephub 2024-09-02 09:55:05 0 收藏

部分可观测马尔可夫决策过程(POMDP)原理与代码实战案例讲解

POMDP是一个基于概率的决策过程，用于描述在部分可观测环境下决策的问题。状态空间SSS）：描述环境可能处于的所有状态。动作空间AAA）：描述可以采取的所有动作。观测空间OOO）：描述可能观测到的所有信息。奖励函数RsaoR(s,a,o)Rsao）：描述在状态SSS、执行动作AAA并在观测OOO之后

overfit同步小助手 2024-09-02 09:01:46 0 收藏

ActorCritic 原理与代码实例讲解

Actor-Critic 原理与代码实例讲解作者：禅与计算机程序设计艺术 / Zen and the Art of Computer Programming1. 背景介绍1.1 问题的由来在智能体（Agent）

overfit同步小助手 2024-09-02 06:03:25 0 收藏

【Windows环境下nerfstudio环境配置及复现（含tinycudann安装、poster数据）】

在Windowsx64系统，在虚拟环境python3.8、CUDA11.8、torch2.1.2的环境配置下，搭建了nerfstudio的实验环境。其中，将tinycudann、仓库拉取超时等问题做了详细的解决方法记录，以供有需要的人借鉴。

overfit同步小助手 2024-09-02 04:01:29 0 收藏

从零开始大模型开发与微调：Nvidia 10_20_30_40系列显卡选择的GPU版本

从零开始大模型开发与微调：Nvidia GPU选择指南作者：禅与计算机程序设计艺术 / Zen and the Art of Computer Programming关键词：大模型开发，GPU选择，Nvidia显卡，高性能计算，深度学习加速1. 背景

overfit同步小助手 2024-09-02 02:03:48 0 收藏

（Hugging Face）如何训练和评估 Transformer 模型（代码 + 实践）

这个函数在实例化时，它需要一个分词器（tokenzier）以便知道使用哪个填充用的 token，以及模型填充在输入的左侧或右侧。填充到该批次中最长序列的长度，而不是填充到整个数据集中最长序列的长度。最后一项我们需要做的是，当我们将元素一起进行批处理时，将所有 example 填充到最长的句子的长度。

overfit同步小助手 2024-09-01 10:01:43 0 收藏

压缩大型语言模型(LLMs):缩小10倍、性能保持不变

尽管LLMs的巨大规模使其在广泛的应用场景中表现卓越,但这也为其在实际问题中的应用带来了挑战。本文将探讨如何通过压缩LLMs来应对这些挑战。我们将介绍关键概念,然后通过具体的Python代码实例进行演示。

Deephub 2024-09-01 09:39:13 0 收藏

人工智能视觉深度学习yolov5的学习笔记

overfit同步小助手 2024-09-01 02:01:31 0 收藏

Vitis AI 进阶认知（量化过程详解）

在当今技术快速发展的时代，我们追求的不仅是智能设备的高性能，同时也强调其能效和便携性。Vitis AI量化器便是在这样的背景下应运而生的一个工具，它通过将神经网络模型的数据精度从32位浮点数降低到8位整数，极大地缩减了模型的体积和计算需求，而通过精心设计的校准和微调过程，又能确保模型的预测准确性基本

overfit同步小助手 2024-09-01 00:01:11 0 收藏

深度学习笔记

神经网络主要原理图：神经网络主要有两个函数：线性函数、激活函数。包含两个参数：M未知数的系数、b偏置数。在模型训练好之后：对应的inputs和outputs为输入和输出内容如：将英文内容输入输出翻译为中文。但在训练模型时需要同时将语义相近的中文和英文分别在inputs和outputs输入之后通过最上

overfit同步小助手 2024-08-31 21:01:42 0 收藏

激活函数 (Activation Function) 原理与代码实例讲解

激活函数 (Activation Function) 原理与代码实例讲解作者：禅与计算机程序设计艺术 / Zen and the Art of Computer Programming1. 背景介绍1.1

overfit同步小助手 2024-08-31 18:03:28 0 收藏

深度学习系列-----＞环境搭建（Ubuntu）

电脑基础系统硬件情况：系统：ubuntu18.04、显卡：GTX1050Ti；后续的环境搭建都在此基础上进行。此次学习选择Pytorch作为深度学习的框架，选择的原因主要由于PyTorch 在研究领域特别受欢迎，较多的论文框架也是基于其开发。

overfit同步小助手 2024-08-31 10:01:46 0 收藏

生成式人工智能最重要的三个神经网络，从谷歌DeepDream、Magenta、到NVIDIA的StyleGAN

神经网络是生成式人工智能的基础，使机器能够生成模仿真实数据分布的新数据实例。

overfit同步小助手 2024-08-31 08:01:15 0 收藏

文本生成 (Text Generation)

文本生成 (Text Generation)作者：禅与计算机程序设计艺术1. 背景介绍1.1 文本生成的定义与意义文本生成是自然语言处理(NLP)领域的一个重要分支,它旨在利用计算机算法自动生成连贯、流畅

overfit同步小助手 2024-08-31 01:03:43 0 收藏

异常检测：基于自编码器的方法

异常检测：基于自编码器的方法1. 背景介绍异常检测是机器学习和数据挖掘领域的一个重要课题,在工业生产、金融风控、网络安全等诸多领域有着广泛的应用。异常是指数据集中与大多数数据点有显著差异的少数样本,通常表现为偏离正常模式或规律。异常检测的目的是从大量正常数据中识别出这些异常点,为后续的分析

overfit同步小助手 2024-08-30 18:03:19 0 收藏

模型参数量与显存占用分析

由于反向传播、Adam优化和Transformer架构等因素，保守估计，训练所需的显存是模型参数所占显存的4倍（1x 为模型、1x 为梯度、1~2x 为优化器）。为了确保训练期间模型收敛，参数类型一般不能是int8或int4。注1：使用AdamW优化器，显存需求为2x；使用SGD优化器，显存需求为

overfit同步小助手 2024-08-30 16:01:43 0 收藏

PyTorch数据处理：torch.utils.data模块的7个核心函数详解

本文将深入介绍PyTorch中 torch.utils.data 模块的7个核心函数,这些工具可以帮助你更好地管理和操作数据。

Deephub 2024-08-30 09:06:50 0 收藏