深入解析xLSTM:LSTM架构的演进及PyTorch代码实现详解

xLSTM的新闻大家可能前几天都已经看过了,原作者提出更强的xLSTM,可以将LSTM扩展到数十亿参数规模,我们今天就来将其与原始的lstm进行一个详细的对比,然后再使用Pytorch实现一个简单的xLSTM。

DeepSparse: 通过剪枝和稀疏预训练,在不损失精度的情况下减少70%的模型大小,提升三倍速度

这篇论文提出了一种高稀疏性基础大型语言模型(LLMs)的新方法,通过有效的预训练和部署,实现了模型在保持高准确度的同时,显著提升了处理速度。

扩散模型的多元化应用:药物发现、文本生成、时间序列预测等

今天我们就来研究一下扩散模型的多元化应用。

图神经网络入门示例:使用PyTorch Geometric 进行节点分类

本文介绍的主要流程是我们训练图神经网络的基本流程,尤其是前期的数据处理和加载,通过扩展本文的基本流程可以应对几乎所有图神经网络问题。

ATFNet:长时间序列预测的自适应时频集成网络

ATFNet是一个深度学习模型,它结合了时间域和频域模块来捕获时间序列数据中的依赖关系。这是4月发布在arxiv上的论文,还包含了源代码。

时间序列预测:探索性数据分析和特征工程的实用指南

我在本文中我们将EDA总结为六个步骤:描述性统计、时间图、季节图、箱形图、时间序列分解、滞后分析。

Transformers 加速的一些常用技巧

我们今天来总结以下一些常用的加速策略

You Only Cache Once:YOCO 基于Decoder-Decoder 的一个新的大语言模型架构

这是微软再5月刚刚发布的一篇论文提出了一种解码器-解码器架构YOCO,因为只缓存一次KV对,所以可以大量的节省内存。

图机器学习入门:基本概念介绍

本篇文章将从基础开始介绍什么是图,我们如何描述和表示它们,以及它们的属性是什么。

使用PyTorch实现L1, L2和Elastic Net正则化

在机器学习中,L1正则化、L2正则化和Elastic Net正则化是用来避免过拟合的技术,它们通过在损失函数中添加一个惩罚项来实现。

论文推荐:用多词元预测法提高模型效率与速度

作者们提出了一种创新的多词元预测方法,该方法在提高大型语言模型(LLMs)的样本效率和推理速度方面展示了显著优势。

号称能打败MLP的KAN到底行不行?数学核心原理全面解析

这篇文章将涉及大量的数学知识,主要介绍KAN背后的数学原理。

循环编码:时间序列中周期性特征的一种常用编码方式

在深度学习或神经网络中,"循环编码"(Cyclical Encoding)是一种编码技术,其特点是能够捕捉输入或特征中的周期性或循环模式。

LSTM时间序列预测中的一个常见错误以及如何修正

当使用LSTM进行时间序列预测时,人们容易陷入一个常见的陷阱。

LLM2Vec介绍和将Llama 3转换为嵌入模型代码示例

通过LLM2Vec,我们可以使用LLM作为文本嵌入模型。但是简单地从llm中提取的嵌入模型往往表现不如常规嵌入模型

BiTCN:基于卷积网络的多元时间序列预测

在本文中,我们将详细介绍了BiTCN,提出的模型。通过利用两个时间卷积网络(TCN),该模型可以编码过去和未来的协变量,同时保持计算效率。

整合文本和知识图谱嵌入提升RAG的性能

在RAG模型中,文本嵌入和知识嵌入都允许对输入文本和结构化知识进行更全面、上下文更丰富的表示。这种集成增强了模型在答案检索、答案生成、对歧义的鲁棒性和结构化知识的有效结合方面的性能,最终导致更准确和信息丰富的响应。

Gradformer: 通过图结构归纳偏差提升自注意力机制的图Transformer

Gradformer通过引入带有可学习约束的指数衰减掩码,为图Transformer提供了一种新的方法,有效地捕捉了图结构中的本地和全局信息。

10个使用NumPy就可以进行的图像处理步骤

本文将介绍10个使用使用NumPy就可以进行的图像处理步骤,虽然有更强大的图像处理库,但是这些简单的方法可以让我们更加熟练的掌握NumPy的操作。

贝叶斯推理导论:如何在‘任何试验之前绝对一无所知’的情况下计算概率

本文将进一步探讨如何通过匹配覆盖率来证明客观贝叶斯分析的先验;重新审视贝叶斯和拉普拉斯研究过的问题,看看如何用更现代的方法来解决这些问题。

登录可以使用的更多功能哦! 登录
作者榜
...
资讯小助手

资讯同步

...
内容小助手

文章同步

...
Deephub

公众号:deephub-imba

...
奕凯

公众号:奕凯的技术栈