大语言模型 - overfit.cn

LLMs之Dify：Dify的简介、安装和使用方法、案例应用之详细攻略

LLMs之Dify：Dify的简介、安装和使用方法、案例应用之详细攻略目录Dify的简介Dify的安装和使用方法Dify的案例应用Dify的简介2023年5月，Dify正式发布，这是一个开源的LLM应用程序开发平台。它直观的界面结合了人工智能工作流程、RAG管道、代理能力、模型管理、可观察性特性等

overfit同步小助手 2024-06-04 09:04:04 0 收藏

2024年5月第四周LLM重要论文总结

本文总结了2024年5月第四周发表的一些最重要的LLM论文。这些论文的主题包括模型优化和缩放到推理、基准测试和增强性能。

Deephub 2024-06-03 10:24:25 0 收藏

微调真的能让LLM学到新东西吗:引入新知识可能让模型产生更多的幻觉

论文详细研究了一个经过微调的模型会发生什么，以及它在获得新知识后的反应会发生什么。

Deephub 2024-05-29 10:04:16 0 收藏

2024年5月大语言模型论文推荐：模型优化、缩放到推理、基准测试和增强性能

这篇文章将要总结了2024年5月发表的一些最重要的大语言模型的论文。这些论文涵盖了塑造下一代语言模型的各种主题，从模型优化和缩放到推理、基准测试和增强性能。

Deephub 2024-05-26 10:13:54 0 收藏

整合LlamaIndex与LangChain构建高级的查询处理系统

本篇文章将介绍如何将LlamaIndex和LangChain整合使用，创建一个既可扩展又可定制的代理RAG（Retrieval-Augmented Generation）应用程序，利用两种技术的强大功能，开发出能够处理复杂查询并提供精准答案的高效应用程序。

Deephub 2024-05-22 09:48:58 0 收藏

DeepSparse: 通过剪枝和稀疏预训练，在不损失精度的情况下减少70%的模型大小，提升三倍速度

这篇论文提出了一种高稀疏性基础大型语言模型（LLMs）的新方法，通过有效的预训练和部署，实现了模型在保持高准确度的同时，显著提升了处理速度。

Deephub 2024-05-19 09:42:23 0 收藏

You Only Cache Once:YOCO 基于Decoder-Decoder 的一个新的大语言模型架构

这是微软再5月刚刚发布的一篇论文提出了一种解码器-解码器架构YOCO，因为只缓存一次KV对，所以可以大量的节省内存。

Deephub 2024-05-12 11:16:58 0 收藏

论文推荐：用多词元预测法提高模型效率与速度

作者们提出了一种创新的多词元预测方法，该方法在提高大型语言模型（LLMs）的样本效率和推理速度方面展示了显著优势。

Deephub 2024-05-09 09:52:06 0 收藏

LLM2Vec介绍和将Llama 3转换为嵌入模型代码示例

通过LLM2Vec，我们可以使用LLM作为文本嵌入模型。但是简单地从llm中提取的嵌入模型往往表现不如常规嵌入模型

Deephub 2024-05-05 12:14:52 0 收藏

整合文本和知识图谱嵌入提升RAG的性能

在RAG模型中，文本嵌入和知识嵌入都允许对输入文本和结构化知识进行更全面、上下文更丰富的表示。这种集成增强了模型在答案检索、答案生成、对歧义的鲁棒性和结构化知识的有效结合方面的性能，最终导致更准确和信息丰富的响应。

Deephub 2024-05-03 10:05:35 0 收藏

如何准确的估计llm推理和微调的内存消耗

在本文中，我将介绍如何计算这些模型用于推理和微调的最小内存。这种方法适用于任何的llm，并且精确的计算内存总消耗。

Deephub 2024-04-29 10:28:03 0 收藏

开源向量数据库比较：Chroma, Milvus, Faiss,Weaviate

本文为你提供四个重要的开源向量数据库之间的全面比较，希望你能够选择出最符合自己特定需求的数据库。

Deephub 2024-04-25 10:17:39 0 收藏

微软Phi-3，3.8亿参数能与Mixtral 8x7B和GPT-3.5相媲美，量化后还可直接在IPhone中运行

Phi-3是一系列先进的语言模型，专注于在保持足够紧凑以便在移动设备上部署的同时，实现高性能

Deephub 2024-04-24 11:58:07 0 收藏

5种搭建LLM服务的方法和代码示例

在这篇文章中，我们将总结5种搭建开源大语言模型服务的方法，每种都附带详细的操作步骤，以及各自的优缺点。

Deephub 2024-04-22 10:16:43 0 收藏

使用ORPO微调Llama 3

ORPO是一种新的微调技术，它将传统的监督微调和偏好对齐阶段结合到一个过程中。我们将使用ORPO和TRL库对新的Llama 3 8b模型进行微调。

Deephub 2024-04-21 09:59:06 0 收藏

RAG 2.0架构详解：构建端到端检索增强生成系统

当前RAG的问题在于各个子模块之间并没有完全协调，就像一个缝合怪一样，虽然能够工作但各部分并不和谐，所以我们这里介绍RAG 2.0的概念来解决这个问题。

Deephub 2024-04-19 11:49:26 0 收藏

ORPO偏好优化：性能和DPO一样好并且更简单的对齐方法

ORPO是另一种新的LLM对齐方法，这种方法甚至不需要SFT模型。通过ORPO，LLM可以同时学习回答指令和满足人类偏好。

Deephub 2024-04-16 10:00:37 0 收藏

PiSSA ：将模型原始权重进行奇异值分解的一种新的微调方法

我们开始看4月的新论文了，这是来自北京大学人工智能研究所、北京大学智能科学与技术学院的研究人员发布的Principal Singular Values and Singular Vectors Adaptation（PiSSA）方法。

Deephub 2024-04-12 10:03:57 0 收藏

10个大型语言模型(LLM)常见面试问题和答案解析

今天我们来总结以下大型语言模型面试中常问的问题

Deephub 2024-04-11 10:20:34 0 收藏

推测解码：在不降低准确性的情况下将LLM推理速度提高2 - 3倍

在本篇文章我们将详细讨论推测解码，这是一种可以将LLM推理速度提高约2 - 3倍而不降低任何准确性的方法。我们还将会介绍推测解码代码实现，并看看它与原始transformer 实现相比到底能快多少。

Deephub 2024-04-10 09:53:56 0 收藏