Deephub 的个人主页

用PyTorch从零开始编写DeepSeek-V2

DeepSeek-V2是一个强大的开源混合专家（MoE）语言模型，通过创新的Transformer架构实现了经济高效的训练和推理。该模型总共拥有2360亿参数，其中每个令牌激活21亿参数，支持最大128K令牌的上下文长度。

2024-07-23 10:02:25 0 收藏

VQ-VAE：矢量量化变分自编码器，离散化特征学习模型

VQ-VAE 是变分自编码器（VAE）的一种改进。这些模型可以用来学习有效的表示。本文将深入研究 VQ-VAE 之前，不过，在这之前我们先讨论一些概率基础和 VAE 架构。

2024-07-22 09:53:51 0 收藏

PyTorch Tabular：高效优化结构化数据处理的强大工具

PyTorch Tabular 是一个用于构建和训练深度学习模型以解决各种表格数据问题的库。

2024-07-21 16:28:46 0 收藏

多任务高斯过程数学原理和Pytorch实现示例

本文将介绍如何通过共区域化的内在模型(ICM)和共区域化的线性模型(LMC)，使用高斯过程对多个相关输出进行建模。

2024-07-20 10:44:45 0 收藏

使用Pytorch中从头实现去噪扩散概率模型（DDPM）

在本文中，我们将构建基础的无条件扩散模型，即去噪扩散概率模型（DDPM）。从探究算法的直观工作原理开始，然后在PyTorch中从头构建它。本文主要关注算法背后的思想和具体实现细节。

2024-07-19 10:55:09 0 收藏

谷歌的时间序列预测的基础模型TimesFM详解和对比测试

在本文中，我们将介绍模型架构、训练，并进行实际预测案例研究。将对TimesFM的预测能力进行分析，并将该模型与统计和机器学习模型进行对比。

2024-07-18 10:25:55 0 收藏

Pytorch的编译新特性TorchDynamo的工作原理和使用示例

TorchDynamo 是一个由 PyTorch 团队开发的编译器前端，它旨在自动优化 PyTorch 程序以提高运行效率。

2024-07-17 09:39:51 0 收藏

注意力机制中三种掩码技术详解和Pytorch实现

在这篇文章中，我们将探索在注意力机制中使用的各种类型的掩码，并在PyTorch中实现它们。

2024-07-16 11:41:18 0 收藏

Transformer中高级位置编码的介绍和比较：Linear Rope、NTK、YaRN、CoPE

绝对和相对位置编码是最常见的两种位置编码方式，但是本文将要比较更高级的位置编码方法： 1、RoPE 位置编码及其变体 2、CoPE

2024-07-15 10:08:47 0 收藏

Doping：使用精心设计的合成数据测试和评估异常检测器的技术

使用Doping方法，真实数据行会被（通常是）随机修改，修改的方式是确保它们在某些方面可能成为异常值，这时应该被异常检测器检测到。然后通过评估检测器检测Doping记录的效果来评估这些检测器。

2024-07-14 10:49:00 0 收藏

持续学习中避免灾难性遗忘的Elastic Weight Consolidation Loss数学原理及代码实现

Elastic Weight Consolidation。EWC提供了一种很有前途的方法来减轻灾难性遗忘，使神经网络在获得新技能的同时保留先前学习任务的知识。

2024-07-13 10:51:00 0 收藏

Lookback Lens：用注意力图检测和减轻llm的幻觉

这篇论文的作者提出了一个简单的幻觉检测模型，其输入特征由上下文的注意力权重与新生成的令牌(每个注意头)的比例给出。

2024-07-12 11:02:07 0 收藏

LLM代理应用实战：构建Plotly数据可视化代理

我们构建一个数据可视化的代理，通过代理我们只需提供很少的信息就能够让LLM生成我们定制化的图表。

2024-07-11 10:39:01 0 收藏

统计学入门：时间序列分析基础知识详解

时间序列分析中包含了许多复杂的数学公式，它们往往难以留存于记忆之中。为了更好地掌握这些内容，本文将整理并总结时间序列分析中的一些核心概念，如自协方差、自相关和平稳性等

2024-07-10 10:47:47 0 收藏

11个提升Python列表编码效率的高级技巧

Python中关于列表的一些很酷的技巧

2024-07-09 10:24:26 0 收藏

LLM推理引擎怎么选？TensorRT vs vLLM vs LMDeploy vs MLC-LLM

有很多个框架和包可以优化LLM推理和服务，所以在本文中我将整理一些常用的推理引擎并进行比较。

2024-07-08 10:25:27 0 收藏

PyTorch中的多进程并行处理

这篇文章我们将介绍如何利用torch.multiprocessing模块，在PyTorch中实现高效的多进程处理。

2024-07-07 10:14:59 0 收藏

2024年6月后2周重要的大语言模型论文总结：LLM进展、微调、推理和对齐

本文总结了2024年6月后两周发表的一些最重要的大语言模型论文。这些论文涵盖了塑造下一代语言模型的各种主题，从模型优化和缩放到推理、基准测试和增强性能。

2024-07-06 11:33:00 0 收藏

RouteLLM：高效LLM路由框架，可以动态选择优化成本与响应质量的平衡

该论文提出了一个新的框架，用于在强模型和弱模型之间进行查询路由选择。通过学习用户偏好数据，预测强模型获胜的概率，并根据成本阈值来决定使用哪种模型处理查询。该研究主要应用于大规模语言模型（LLMs）的实际部署中，通过智能路由在保证响应质量的前提下显著降低成本。

2024-07-05 10:42:41 0 收藏

字符串相似度算法完全指南：编辑、令牌与序列三类算法的全面解析与深入分析

在自然语言处理领域，人们经常需要比较字符串，这些字符串可能是单词、句子、段落甚至是整个文档。本文将详细介绍这个问题。

2024-07-04 11:00:48 0 收藏

Deephub

个人信息