0


2023年12月 论文推荐

12月已经过了一半了,还有2周就是2024年了,我们来推荐下这两周我发现的一些好的论文,另外再推荐2篇很好的英文文章。

Mamba: Linear-Time Sequence Modeling with Selective State Spaces

该研究介绍了Mamba,一种硬件感知并行算法,克服了Transformers 在语言处理任务中长序列的低效率。通过实现选择性状态空间,Mamba实现了快速推理、线性可伸缩性以及与大型transformer模型相比具有竞争力的性能。

https://arxiv.org/abs/2312.00752

Text Embeddings Reveal (Almost) As Much As Text

研究了“嵌入反转”的概念,从密集文本嵌入中重构完整文本。研究人员使用多步骤方法在生成受控文本方面取得了很高的成功率。该研究还揭示了从文本嵌入中提取敏感个人数据的潜力,强调了在机器学习中改进隐私措施的必要性。

https://arxiv.org/abs/2310.06816

Diffusion Models Without Attention

DiffuSSM是一个新的模型,可以加速扩散模型生成高分辨率图像,而不牺牲细节质量。它用一个可伸缩的状态空间模型主干取代了注意力机制,从而在节省计算资源的同时提高了ImageNet和LSUN数据集的性能。

https://arxiv.org/abs/2311.18257

SparQ Attention: Bandwidth-Efficient LLM Inference

SparQ Attention是一种通过减少内存带宽需求来提高大型语言模型效率的技术。它不需要改变预训练或微调,可以显著降低注意力记忆要求而不影响准确性。

https://arxiv.org/abs/2312.04985

Chain of Code: Reasoning with a Language Model-Augmented Code Emulator

代码链(CoC),一种集成了代码仿真的方法来提高语言模型的推理能力。CoC比以前的技术性能提高了12%,解决了lm复杂逻辑和语言任务的挑战。

https://arxiv.org/abs/2312.04474

文章推荐

最后再推荐两篇文章

The GenAI Frontier: 10 Transformative LLM Research Papers of 2023 from LLaMA to GPT-4

https://www.topbots.com/top-llm-research-papers-2023/

2023年是大模型快速发展的一年。这些llm以其巨大的参数大小和能力给人们留下了深刻的印象。这篇文章介绍了在该领域展开的变革性研究,其中语言模型已经被改进、缩小,甚至与外部工具集成以处理各种各样的任务。主要介绍了一下的一些主要的模型和研究:

  • LLaMA by Meta AI
  • LLaMA 2 by Meta AI
  • GPT-4 by OpenAI
  • Sparks of AGI by Microsoft
  • BLIP-2 by Salesforce
  • InstructBLIP by Salesforce
  • PALM-E by Google
  • PALM-2 by Google
  • Toolformer by Meta AI

RAG vs. Context-Window in GPT-4: accuracy, cost, & latency

https://ai88.substack.com/p/rag-vs-context-window-in-gpt4-accuracy-cost

这个文章对于应用来说非常有帮助,它对GPT-4中上下文窗口填充和检索增强生成(RAG)的比较表明,RAG仅以4%的成本获得了更好的性能。与上下文窗口填充相比,具有128k上下文窗口的RAG在成本、延迟和准确性方面都优于上下文窗口填充。所以如果需要在实际应用中使用RAG或者Context-Window做选择的话,推荐看看这篇文章。

“2023年12月 论文推荐”的评论:

还没有评论