Deephub 的个人主页

Quiet-STaR:让语言模型在“说话”前思考

本文将介绍一篇3月的论文Quiet-STaR：这是一种新的方法，通过鼓励LLM发展一种“内心独白”的形式来解决这一限制，这种基本原理生成有助于LLM通过完成任务或回答问题所涉及的步骤进行推理，最终获得更准确和结构良好的输出。

2024-03-30 19:28:30 0 收藏

使用MergeKit创建自己的专家混合模型：将多个模型组合成单个MoE

在本文中，我们将详细介绍MoE架构是如何工作的，以及如何创建frankenmoe。最后将用MergeKit制作自己的frankenMoE，并在几个基准上对其进行评估。

2024-03-29 11:49:54 0 收藏

如何开始定制你自己的大型语言模型

2023年的大型语言模型领域经历了许多快速的发展和创新，发展出了更大的模型规模并且获得了更好的性能，那么我们普通用户是否可以定制我们需要的大型语言模型呢？

2024-03-28 10:58:14 0 收藏

Chronos: 将时间序列作为一种语言进行学习

这是一篇非常有意思的论文，它将时间序列分块并作为语言模型中的一个token来进行学习，并且得到了很好的效果。

2024-03-27 10:47:11 0 收藏

使用GaLore在本地GPU进行高效的LLM调优

，GaLore可以让我们在具有24 GB VRAM的消费级GPU上微调7B模型。结果模型的性能与全参数微调相当，并且似乎优于LoRA。

2024-03-25 09:45:40 0 收藏

8个常见的数据可视化错误以及如何避免它们

本文总结了8个数据可视化的典型错误，在日常工作中我们应该尽量避免，这样才可以制作出更好的可视化效果。

2024-03-24 10:02:16 0 收藏

BurstAttention:可对非常长的序列进行高效的分布式注意力计算

而最新的研究BurstAttention可以将2者结合，作为RingAttention和FlashAttention之间的桥梁。

2024-03-23 11:10:28 0 收藏

文生图的基石CLIP模型的发展综述

Open AI在2021年1月份发布的DALL-E和CLIP，这两个都属于结合图像和文本的多模态模型，其中DALL-E是基于文本来生成模型的模型，而CLIP是用文本作为监督信号来训练可迁移的视觉模型。

2024-03-22 11:12:25 0 收藏

Moment:又一个开源的时间序列基础模型

根据作者的介绍，MOMENT则是第一个开源，大型预训练时间序列模型家族。

2024-03-21 10:02:32 0 收藏

多项式朴素贝叶斯分类器

在这篇文章中，我们介绍多项式朴素贝叶斯分类器是如何工作的，然后使用scikit-learn作为实际工作的示例来介绍如何使用。

2024-03-20 10:29:27 0 收藏

在16G的GPU上微调Mixtral-8x7B

在本文中，我将展示如何仅使用16 GB的GPU RAM对使用AQLM进行量化的Mixtral-8x7B进行微调。

2024-03-19 09:30:57 0 收藏

2024年3月的计算机视觉论文推荐

我们今天来总结一下2024年3月上半月份发表的最重要的论文，无论您是研究人员、从业者还是爱好者，本文都将提供有关计算机视觉中最先进的技术和工具重要信息。

2024-03-18 18:04:21 0 收藏

时间序列预测的零样本学习是未来还是炒作：TimeGPT和TiDE的综合比较

在本文中，我们将讨论一个通用的预训练模型能否解决预测任务的范式转变。使用TimeGPT进行零样本学习然后将TimeGPT的性能与TiDE进行比较

2024-03-17 10:55:06 0 收藏

微调大型语言模型进行命名实体识别

这篇文章总结了命名实体识别(NER)问题微调大型语言模型的经验。我们将以个人身份信息(PII)为例来介绍大型语言模型进行NER微调的方法。

2024-03-17 10:51:14 0 收藏

LoRA及其变体概述：LoRA, DoRA, AdaLoRA, Delta-LoRA

在本文中，我们将解释LoRA本身的基本概念，然后介绍一些以不同的方式改进LoRA的功能的变体，包括LoRA+、VeRA、LoRA- fa、LoRA-drop、AdaLoRA、DoRA和Delta-LoRA。

2024-03-15 11:45:38 0 收藏

MADQN：多代理合作强化学习

在本文中我们将只关注合作多代理学习的问题，不仅因为它在我们日常生活中更常见，而对于我们学习来说也相对的简单一些。

2024-03-14 11:26:30 0 收藏

2024年3月最新的深度学习论文推荐

现在已经是3月中旬了，我们这次推荐一些2月和3月发布的论文。

2024-03-13 10:13:51 0 收藏

傅里叶变换算法和Python代码实现

本篇文章我们将使用Python来实现一个连续函数的傅立叶变换。

2024-03-12 10:02:51 0 收藏

从16-bit 到 1.58-bit ：大模型内存效率和准确性之间的最佳权衡

在本文中，我们将通过使用GPTQ对Mistral 7B、Llama 27b和Llama 13B进行8位、4位、3位和2位量化实验,还要介绍一个大模型的最新研究1.58 Bits，它只用 -1，0，1来保存权重

2024-03-11 10:54:08 0 收藏

Nomic Embed：能够复现的SOTA开源嵌入模型

Nomic-embed-text是2月份刚发布的，并且是一个完全开源的英文文本嵌入模型，上下文长度为8192.该模型有137M个参数在现在可以算是非常小的模型了。

2024-03-10 10:13:03 0 收藏

Deephub

个人信息