数据并非都是正态分布:三种常见的统计分布及其应用
本文我们研究三种常见分布以及我们如何使用它们:正态分布、泊松分布和卡方分布。
Block Transformer:通过全局到局部的语言建模加速LLM推理
在这篇论文中,作者提出了Block Transformer架构,该架构通过在较低层次之间的粗糙块(每个块代表多个令牌)的自注意力来模拟全局依赖性,并在较高层次的每个局部块内解码细粒度的令牌,
CNN依旧能战:nnU-Net团队新研究揭示医学图像分割的验证误区,设定先进的验证标准与基线模型
这篇论文研究了在3D医学图像分割领近年引入了许多新的架构和方法,但大多数方法并没有超过2018年的原始nnU-Net基准。作者指出,许多关于新方法的优越性的声称在进行严格验证后并不成立,这揭示了当前在方法验证上存在的不严谨性。
从提示工程到代理工程:构建高效AI代理的策略框架概述
本框架旨在提供一个实用的思维模型,虽不全面,但足以作为一个起点,随后可根据实际需要进行细化和扩展。
一切模型皆可联邦化:高斯朴素贝叶斯代码示例
一般情况下我们对联邦学习的理解都是大模型和深度学习模型才可以进行联邦学习,其实基本上只要包含参数的机器学习方法都可以使用联邦学习的方法保证数据隐私。
为什么你的RAG不起作用?失败的主要原因和解决方案
本文的目标是揭示普通RAG失败的主要原因,并提供具体策略和方法,使您的RAG更接近生产阶段。
2024年5月第四周LLM重要论文总结
本文总结了2024年5月第四周发表的一些最重要的LLM论文。这些论文的主题包括模型优化和缩放到推理、基准测试和增强性能。
通过f-string编写简洁高效的Python格式化输出代码
Python 3.6中引入的f-string是Python中最常用的特征之一,它可以让我们编写更干净、更高效和更易于维护的代码,我们今天就由浅入深来详细介绍使用它的一些技巧。
长序列中Transformers的高级注意力机制总结
本文的重点是深入研究长序列种应用的高级注意力机制的数学复杂性和理论基础
通过强化学习策略进行特征选择
在本文中,我们将介绍并实现一种新的通过强化学习策略的特征选择。
微调真的能让LLM学到新东西吗:引入新知识可能让模型产生更多的幻觉
论文详细研究了一个经过微调的模型会发生什么,以及它在获得新知识后的反应会发生什么。
SUPRA:无须额外训练,将Transformer变为高效RNN,推理速度倍增
SUPRA方法旨在将预训练的大型语言模型(LLMs)转化为RNNs,具体步骤包括替换softmax归一化为GroupNorm,使用一个小型MLP投影queries和keys。
2024年5月大语言模型论文推荐:模型优化、缩放到推理、基准测试和增强性能
这篇文章将要总结了2024年5月发表的一些最重要的大语言模型的论文。这些论文涵盖了塑造下一代语言模型的各种主题,从模型优化和缩放到推理、基准测试和增强性能。
2024年5月计算机视觉论文推荐:包括扩散模型、视觉语言模型、图像编辑和生成、视频处理和生成以及图像识别等各个主题
我们今天总结下2024年5月发表的最重要的论文,重点介绍了计算机视觉领域的最新研究和进展,包括扩散模型、视觉语言模型、图像编辑和生成、视频处理和生成以及图像识别等各个主题。
使用FP8加速PyTorch训练的两种方法总结
在PyTorch中,FP8(8-bit 浮点数)是一个较新的数据类型,用于实现高效的神经网络训练和推理。它主要被设计来降低模型运行时的内存占用,并加快计算速度
MambaOut:状态空间模型并不适合图像的分类任务
该论文探讨了Mamba架构(包含状态空间模型SSM)是否有必要用于视觉任务,如图像分类、目标检测和语义分割。通过实验证实了了Mamba在视觉识别任务中的效果,认为其不如传统的卷积和注意力模型。
整合LlamaIndex与LangChain构建高级的查询处理系统
本篇文章将介绍如何将LlamaIndex和LangChain整合使用,创建一个既可扩展又可定制的代理RAG(Retrieval-Augmented Generation)应用程序,利用两种技术的强大功能,开发出能够处理复杂查询并提供精准答案的高效应用程序。
深入解析xLSTM:LSTM架构的演进及PyTorch代码实现详解
xLSTM的新闻大家可能前几天都已经看过了,原作者提出更强的xLSTM,可以将LSTM扩展到数十亿参数规模,我们今天就来将其与原始的lstm进行一个详细的对比,然后再使用Pytorch实现一个简单的xLSTM。
DeepSparse: 通过剪枝和稀疏预训练,在不损失精度的情况下减少70%的模型大小,提升三倍速度
这篇论文提出了一种高稀疏性基础大型语言模型(LLMs)的新方法,通过有效的预训练和部署,实现了模型在保持高准确度的同时,显著提升了处理速度。