混合专家模型 - overfit.cn

这是9月份刚刚发布的论文TimeMOE。它是一种新型的时间序列预测基础模型,"专家混合"(Mixture of Experts, MOE)在大语言模型中已经有了很大的发展，现在它已经来到了时间序列。

Deephub 2024-09-28 09:41:14 0 收藏

这篇2月的新论文介绍了Post-Hoc Adaptive Tokenwise Gating Over an Ocean of Specialized Experts (PHATGOOSE)，这是一种通过利用一组专门的PEFT模块(如LoRA)实现零样本泛化的新方法

Deephub 2024-02-25 20:10:17 0 收藏

MoE-LLaVA利用了“专家混合”策略融合视觉和语言数据，实现对多媒体内容的复杂理解和交互。

Deephub 2024-02-07 10:03:42 0 收藏

在本文中，我将使用Pytorch来实现一个MoE模型。在具体代码之前，我们先简单介绍混合专家的体系结构。

Deephub 2024-01-10 09:46:57 0 收藏

登录可以使用的更多功能哦！登录

资讯同步

文章同步

公众号：deephub-imba

公众号：奕凯的技术栈