2023年12月论文推荐

12月已经过了一半了，还有2周就是2024年了，我们来推荐下这两周我发现的一些好的论文，另外再推荐2篇很好的英文文章。

Mamba: Linear-Time Sequence Modeling with Selective State Spaces

该研究介绍了Mamba，一种硬件感知并行算法，克服了Transformers 在语言处理任务中长序列的低效率。通过实现选择性状态空间，Mamba实现了快速推理、线性可伸缩性以及与大型transformer模型相比具有竞争力的性能。

https://arxiv.org/abs/2312.00752

Text Embeddings Reveal (Almost) As Much As Text

研究了“嵌入反转”的概念，从密集文本嵌入中重构完整文本。研究人员使用多步骤方法在生成受控文本方面取得了很高的成功率。该研究还揭示了从文本嵌入中提取敏感个人数据的潜力，强调了在机器学习中改进隐私措施的必要性。

https://arxiv.org/abs/2310.06816

Diffusion Models Without Attention

DiffuSSM是一个新的模型，可以加速扩散模型生成高分辨率图像，而不牺牲细节质量。它用一个可伸缩的状态空间模型主干取代了注意力机制，从而在节省计算资源的同时提高了ImageNet和LSUN数据集的性能。

https://arxiv.org/abs/2311.18257

SparQ Attention: Bandwidth-Efficient LLM Inference

SparQ Attention是一种通过减少内存带宽需求来提高大型语言模型效率的技术。它不需要改变预训练或微调，可以显著降低注意力记忆要求而不影响准确性。

https://arxiv.org/abs/2312.04985

Chain of Code: Reasoning with a Language Model-Augmented Code Emulator

代码链(CoC)，一种集成了代码仿真的方法来提高语言模型的推理能力。CoC比以前的技术性能提高了12%，解决了lm复杂逻辑和语言任务的挑战。

https://arxiv.org/abs/2312.04474

文章推荐

最后再推荐两篇文章

The GenAI Frontier: 10 Transformative LLM Research Papers of 2023 from LLaMA to GPT-4

https://www.topbots.com/top-llm-research-papers-2023/

2023年是大模型快速发展的一年。这些llm以其巨大的参数大小和能力给人们留下了深刻的印象。这篇文章介绍了在该领域展开的变革性研究，其中语言模型已经被改进、缩小，甚至与外部工具集成以处理各种各样的任务。主要介绍了一下的一些主要的模型和研究：

LLaMA by Meta AI
LLaMA 2 by Meta AI
GPT-4 by OpenAI
Sparks of AGI by Microsoft
BLIP-2 by Salesforce
InstructBLIP by Salesforce
PALM-E by Google
PALM-2 by Google
Toolformer by Meta AI

RAG vs. Context-Window in GPT-4: accuracy, cost, & latency

https://ai88.substack.com/p/rag-vs-context-window-in-gpt4-accuracy-cost

这个文章对于应用来说非常有帮助，它对GPT-4中上下文窗口填充和检索增强生成(RAG)的比较表明，RAG仅以4%的成本获得了更好的性能。与上下文窗口填充相比，具有128k上下文窗口的RAG在成本、延迟和准确性方面都优于上下文窗口填充。所以如果需要在实际应用中使用RAG或者Context-Window做选择的话，推荐看看这篇文章。

标签：机器学习深度学习论文推荐