0


从 ELMo 到 ChatGPT:历数 NLP 近 5 年必看大模型

目录


团队博客: CSDN AI小组


相关阅读

  • ChatGPT 简介
  • 关于 ChatGPT 必看的 10 篇论文

先上 “万恶之源”:Transformer
在这里插入图片描述


按机构分类

AI21 Labs

发布时间模型名称参数量机构相关链接开源2021-09Jurassic-1 (J1)J1-Jumbo v1 (178B),
J1-Large v1 (7.5B),
J1-Grande v1 (17B)AI21 Labs论文 ,
官方文档,
技术报告受限

Alibaba

发布时间模型名称参数量机构相关链接开源2019-08StructBertstructbert.en.large(340M),
structroberta.en.large(355M),
structbert.ch.large(330M)Alibaba Group Inc.论文,
GitHub模型

Allen Institute for AI

发布时间模型名称参数量机构相关链接开源2018-02ELMoSmall(13.6M),
Medium(28.0M),
Original(93.6M)Allen Institute for AI &
University of Washington论文模型

Amazon

发布时间模型名称参数量机构相关链接开源2022-03DQ-BART与标准BART相比,参数减少了30倍Cornell University &
AWS AI Labs &
University of Pennsylvania论文

Anthropic

发布时间模型名称参数量机构相关链接开源2021-12Anthropic-LMAnthropic-LM v4-s3 (52B)Anthropic论文1,
论文2未开源

BAAI

发布时间模型名称参数量机构相关链接开源2021-06Wu Dao 2.01.75TBAAI官网模型

Baidu

发布时间模型名称参数量机构相关链接开源2019-05ERNIE114MBaiduGitHub,
论文模型

BigScience

发布时间模型名称参数量机构相关链接开源2022-05T0pp11BBigScience etc.论文模型2022-07BLOOM176BBigScience论文模型2022-11BLOOMZ176BBigScience etc.论文模型

Cohere

发布时间模型名称参数量机构相关链接开源2022-06CohereCohere xlarge v20220609 (52.4B),
Cohere large v20220720 (13.1B) ,
Cohere medium v20220720 (6.1B) ,
Cohere small v20220720 (410M) ,
Cohere xlarge v20221108 (52.4B),
Cohere medium v20221108 (6.1B)Cohere官网受限

DeepMind

发布时间模型名称参数量机构相关链接开源2021-07AlphaFold21MDeepMind etc.论文2021-12Gopher280BDeepMind论文,
官网未开源2022-03Chincilla70BDeepMind论文未开源2022-03GopherCite280BDeepmind &
University College London论文2022-04Flamingo80B (largest)Deepmind论文flamingo-mini模型2022-05Gato1.2BDeepmind论文2022-09Sparrow70BDeepmind论文

EleutherAI

发布时间模型名称参数量机构相关链接开源2021-03GPT-Neo5B,
2.7B (XL)EleutherAI论文模型2021-06GPT-J6BEleutherAI博客模型2021-12StableDiffusion890MLMU Munich &
Stability.ai &
Eleuther.ai论文模型2022-04GPT-NeoX20BEleutherAI论文模型

Google

发布时间模型名称参数量机构相关链接开源2018-10BERTBase = 110M,
Large = 340MGoogle AI Language论文模型2019-01Transformer XL151MCarnegie Mellon University &
Google Brain论文模型2019-05XLNetBase=117M,
Large=360MGoogle AI Brain Team &
Carnegie Mellon University论文模型2019-09ALBERTBase = 12M,
Large = 18M,
XLarge = 60MGoogle Research &
Toyota Technological Institute at Chicago论文模型2019-10T511BGoogle论文模型2019-12PegasusBase = 223M,
Large = 568MImperial College London &
Google Research论文模型2020-03ELECTRABase = 110M,
Large = 330MGoogle Brain & Stanford University论文模型2020-07BigBird取决于整体架构Google Research论文模型2020-10ViT86M(Base) to 632M (Huge)Google Research论文模型2021-01Switch1TGoogle论文模型2021-06Decision Transformers117MGoogle Brain &
UC Berkeley &
Facebook AI Research论文模型2021-12GLaM1.2T覆盖64个专业领域,
但只有96B被激活用于推理Google论文,
官方博客2022-01LAMDA137BGoogle论文,
官方博客2022-04PaLM540BGoogle Research论文,
官方博客未开源2022-05UL220BGoogle Research论文模型2022-06Imagen2BGoogle Research论文,
官网2022-06Minerva540BGoogle Research论文,
官网2022-12Flan-T511BGoogle论文模型

Huggingface

发布时间模型名称参数量机构相关链接开源2019-10DistilBERT66MHuggingface论文模型

iFLYTEK

发布时间模型名称参数量机构相关链接开源2020-11MacBertMacBERT-large, Chinese(324M),
MacBERT-base, Chinese(102M)iFLYTEK AI Research &
Harbin Institute of Technology论文模型

Meta (Facebook)

发布时间模型名称参数量机构相关链接开源2019-07RoBERTa356MFacebook AI &
University of Washington论文模型2019-10BART比 BERT 多 10%Facebook AI论文模型2019-10XLM-RoBERTaBase = 270M,
Large = 550MFacebook AI论文模型2020-01mBART与BART相同Facebook AI Research论文模型2021-07HTML400MFacebook AI &
University of Washington论文2022-01CM313B (largest)Facebook AI Research论文2022-03SeeKer与基模型相同Facebook AI Research &
ETH Zürich论文,
官网2022-05OPT175B,
66BMeta AI论文,
官网模型2022-08BlenderBot3175BMeta AI &
Mila/McGill University论文blenderbot-3B模型,
模型2022-11Galatica120BMeta AI论文模型

Microsoft

发布时间模型名称参数量机构相关链接开源2019-03MT-DNN330MMicrosoft Research论文模型2019-05UniLM340MMicrosoft Research论文,
GitHub模型2019-10DialoGPT1.5BMicrosoft Corporation论文模型2020-02Turing NLG17BMicrosoft官方博客2021-03Swin Transformer29M-197MMicrosoft Research AsiaGitHub ,
论文模型

NVidia

发布时间模型名称参数量机构相关链接开源2019-09Megatron-LM8.3B (GPT-like),
3.9B (BERT-like)NVidia论文,
GitHub2021-10Megatron Turing NLG530BMicrosoft &
NVIDIA论文,
官方博客未开源2022-06Global Context ViT90MNVidia论文

OpenAI

发布时间模型名称参数量机构相关链接开源2018-06GPT117MOpenAI论文模型2019-02GPT-21.5BOpenAI论文模型2020-05GPT-3GPT-3 davinci v1 (175B),
GPT-3 curie v1 (6.7B),
GPT-3 babbage v1 (1.3B),
GPT-3 ada v1 (350M)OpenAI论文,
GitHub受限2021-01DALL-E12BOpenAI论文,
官方博客,
Demo2021-02CLIP未知OpenAI论文,
GitHub模型2021-07CodexCodex davinci v2 (Unknow),
Codex davinci v1 (Unknow),
Codex cushman v1 (Unknow)OpenAI论文受限2021-12GLIDE12BOpenAI论文,
Demo2022-01InstructGPTInstructGPT davinci v2 (175B*),
InstructGPT davinci v1 (175B*),
InstructGPT curie v1 (6.7B*),
InstructGPT babbage v1 (1.3B*),
InstructGPT ada v1 (350M*)OpenAI论文,
官网受限2022-04DALL-E-23.5BOpenAI论文,
官网2022-10GPT-3.5175BOpenAI官网未开源2022-10ChatGPT与 GPT3 相同OpenAI官网未开源

Salesforce

发布时间模型名称参数量机构相关链接开源2019-09CTRL1.63BSalesforce Research论文模型

Tsinghua University

发布时间模型名称参数量机构相关链接开源2020-10GLM130BTsinghua University &
Zhipu.AI论文,
Demo10B版模型

UC Berkeley

发布时间模型名称参数量机构相关链接开源2021-06Trajectory Transformers比 GPT 更小的架构UC Berkeley论文模型

Yandex

发布时间模型名称参数量机构相关链接开源2022-06YaLM100BYandexGitHub,
博客模型

持续更新中 …

由于涉及到的模型较多,文中可能存在纰漏,还望指正,谢谢!

参考

[1] CRFM Benchmarking
[2] Transformer models: an introduction and catalog — 2023 Edition


本文转载自: https://blog.csdn.net/u010280923/article/details/129045051
版权归原作者 Alexxinlu 所有, 如有侵权,请联系我们删除。

“从 ELMo 到 ChatGPT:历数 NLP 近 5 年必看大模型”的评论:

还没有评论