2023 AI 发展年终总结

自从 2022 年底 chatgpt 横空出世以来，人们越来越多的认识到了AI 给我们的生活带来的和即将带来的影响。各个科技巨头也纷纷加入了对 AI 的研究当中，在短短的一年多的时间内，我们普通人对 AI 的认识也发生了天翻地覆的变化。

AI 的进展和研究已经变得越来越快，很难用短短的几句话来概括我所看到的一切。关于生成式 AI Gen-AI 的论文研究，也是层出不穷，包括但是不限于：大语言模型 LLM，大型多模态模型 LMM，扩散模型 diffusion 等等。

我们可以通过各种方式与 AI 交互，让其为我们生成想要的文本文案，解决方案，高质量的图片，音频和视频。2023 年，生成式 AI 无疑是最热门的词汇之一，它不断的迭代创新，给我带来的惊喜的同时，也带来了关于失业与未来安全性的担忧，裹挟着我们不断向前。那么是时候停下脚步，享受 12 个月的通用型 AI 的技术进步、商业竞争和社会影响了。

生成式 AI 无处不在

2023年，AI 基本上已经成为了生成式AI 的代名词。
请添加图片描述

起源

OpenAI 的 ChatGPT 于 2022 年 11 月推出，迎来了AI驱动的文本、图像和不断扩大的数据类型生成的标志性一年。

发展

科技巨头争先恐后地推出自己的聊天机器人，并以惊人的速度将最前沿的自然语言处理研究推向市场。从文本到图像生成器（也是由 OpenAI 和 DALL·E）继续改进，并最终开始与文本生成器对应物合并。随着用户蜂拥而至尝试新兴功能，研究人员迅速提高了模型的性能、速度和灵活性。

Microsoft 将 OpenAI 的语言模型集成到其 Bing 搜索引擎中。谷歌感觉到其搜索业务受到威胁，将自己强大的模型利用到 Bard 聊天机器人中。然而这些快速集成并没有一帆风顺——AI增强的必应 Bing 表现出奇怪的行为，而 Bard 的首次亮相则受到幻觉的困扰——但它们为搜索功能和广泛访问文本生成设定了新的标准。
Microsoft 领先一步，在其应用程序中添加了生成式 Copilot 系统，其中包括：- GitHub 的代码生成器和聊天机器人；- 适用于 Windows 的聊天界面；- 以及用于在 Outlook 中汇总 Word 文档、制作 Excel 公式和起草电子邮件的工具等。
许多公司和组织成立了 AI 联盟，发布了开发人员可以免费下载和运行的生态系统。Meta 向开发者开源了 LLaMA，使高性能文本生成广泛可用。紧随其后的还有许多开源模型，它们的的性能可与 GPT-3.5 相媲美，尽管 GPT-4 仍然是领导者。
在云计算领域中，Microsoft Azure、Google Cloud 和 Amazon AWS 都在努力在云上提供生成式 AI。亚马逊提供了自己的 TItan 模型和来自第三方的模型样本，包括 Stability AI、Anthorpic 和 AI21。到今年年底，各种云提供商都提供了许多替代方案。
ChatGPT 问世不到一年后，GPT-4 集成了 DALL-E 3，使其能够解释图像并提示图像生成器生成图像。12 月，谷歌推出了支持多模态模型的 Gemini，可处理文本、图像、音频和视频的多模态混合输入。

文本生成领域

Open AI 的 GPT-4: GPT-4 毫无疑问属于当前文本生成领域的标杆。它集成了 DALL-E 3，因此不仅可以处理图像输入，还能支持对话并支持实时网页浏览；
Google 的 Bard 和 Gemini：Bard 刚推出的时候，收到了幻觉的困扰，但是在 12 月与 Gemini 进一步集成之后，它的能力有了长足进步。无论是对多模态的支持，还是对于多种数据集的测试对比结果，都被认为是最先进的 AI 模型之一，只不过要等到明年上半年才可以真正体验 Gemini Ultra；
Meta 的 Llama 2：号称开源第一的 Llama 2在多数评测中表现优越，特别适合用于对话场景。Llama 2 的表现不仅是 Meta 一家公司在战斗，还是开源与闭源路线的博弈。
Anthropic 的 Claude 2： Claude是Anthropic公司开发的一系列大型语言模型。它的使用体验和 chat gpt 很像，对图的识别和文本生成都有很好的支持。现在它的智能性已经和chat gpt 3.5 类似，但是值得一提的是，他可以支持最高 200k 个tokens 的输入，这一点甚至超过了 GPT-4 的 32k，这应该是目前为止最高的上下文限制了。
MistralAI 的 Mistral 8x7B：Mistral AI 推出了 Mistral 8x7B，这个模型不仅性能比肩 GPT-3.5，而且它的规模小到可以在电脑上运行。在大模型打得火热的 2023 年，Mistral 在小模型领域也开辟了战场。另外在小模型领域有所建树的还有微软的 Phi-2，谷歌的 Gemini nano。
xAI 的 Grok：Elon Musk 的 xAl 公司推出的 Grok 聊天机器人。Grok 目前只对 x 平台的 Premium+ 用户开发，它的特点是可以通过对话实时获取 x 的最新的消息的回答。Grok 具有独特的个性，通过讽刺和幽默的元素促进引人入胜的对话。

图像生成领域

Adobe Firefly：Adobe 的 Firefly 和 Generative Fill 支持创建各种视觉内容，包括插图、艺术概念和照片的处理。Adobe Firefly 集成到了 Photoshop 中，使其功能扩展到了广泛的用户当中。此外，其允许用户给文字添加样式或纹理，这也是一个重大进步。
Midjourney：Midjourney 的 V5 模型标志着图像生成的里程碑，它展示了更高的效率、连贯性和更高的分辨率。最新的 alpha 版本 Midjourney V6 带来了额外的增强功能，例如更准确的提示跟随、增加的模型知识和文本绘制能力。
DALL·E 3：DALL E 3 基于 ChatGPT 构建，它不需要复杂的提示，简化图像生成的步骤。此外，ChatGPT 还引入了一项功能，帮助用户根据反馈细化提示来进行图像调整，大大的提高了使用 AI生成图像的用户体验。
Shutterstock.AI：作为库存图片巨头，Shutterstock 也集成了 AI 功能，用户将提示转换为可供授权使用的图像。通过对内容提供者的奖励，Shutterstock 在推进伦理 AI 方面迈出了重要一步。

视频生成领域

Stability AI：Stability AI 发布了 Stable Video Diffusion，这是一种开创性的生成视频模型，已经在 GitHub 上开源访问。与 AI 图像生成趋势一样，Stable Video Diffusion 模型极有可能在创建大部分 AI 生成的视频方面发挥关键作用。
Runway Gen-2：Runway 推出的 Gen-2 模型，用户可以更加方便的通过文本提示、图像或其他视频内容生成完整视频。关于 Runway 的具体效果，可以参考这个视频。
Pika 和 Pika 1.0：首次发布以来，Pika 获得了五十万用户，每周生成数百万个视频。Pika 1.0 引入的升级 AI 模型赋予用户创作和编辑多种风格视频的能力，涵盖了3D动画、动漫、卡通以及电影等多种风格。
HeyGen：AI初创公司推出了一款可以用来语音克隆、唇部运动调整和视频语言翻译的工具。

其他重要进展

Zephyr Direct Distillation of LM Alignment：基于 Direct Distillation（dDPO）原理构建的 Zephyr-7B 模型，为具备7B参数的聊天模型设立了基准，不需要通过大量培训也可以强化意图对齐。
自主 AI Agent：AI agent 是一个可以重点关于的领域，展示了向先进和自主AI系统的转变。甚至有人认为 AI agent 是通往 AGI 的一条正确道理，因为 agent 可以根据用户的目标生成自我引导的任务和指令，并自主处理它们，直至实现目标。
GPT Store、Copyright Shield、ChatGPT Bot Constructor：OpenAI 推出的 GPT Store，可以个性化的定制你自己的的GPT机器人，Copyright Shield 用于支付与版权侵权索赔相关的法律费用，而无代码平台 Chat GPT Bot Constructor，可以用来创建定制版的ChatGPT。

总结

在一年的时间里，我们从 OpenAI 的一种聊天模式发展到众多封闭、开放和云托管选项。图像生成器在解释提示和产生逼真输出的能力方面取得了长足的进步。视频和音频生成正变得越来越广泛地用于短片，文本到 3D 正在不断发展。2024 年是生成式富矿的准备，使开发人员能够构建比以往任何时候都更广泛的应用程序。

AI 的合法性问题

2023年，在不断演变的AI法律相关问题中，我们面对了一个充满不确定性和各种争议的环境中。随着新的挑战出现，围绕版权、企业政策和更广泛的法规框架的讨论仍在继续，这些讨论也在不断的充实着AI合法性的认识。以下是2023年最重要的法律问题：

欧洲 AI 法案

欧洲联盟引入了AI法案，这是全球首个用于规范AI的使用的综合性法律。该法案根据 AI 系统所带来的风险进行分类，并相应制定了相关法规。尽管AI法案已经初步达成协议，但是其执法工作需要到 2025 年才开始。

美国版权局对 AI 生成内容注册的立场

美国版权局采取了明确的立场，拒绝为由 AI 算法 Midjourney 生成的图像进行版权登记。这一拒绝开创了了一个先例，明确表示没有人类参与、纯由AI创作的艺术作品是不具备版权保护的。与此同时，美国版权局发布了有关 AI 辅助创作作品的指南，澄清了通过使用AI 工具由人类创作的作品可能有资格获得版权保护。该指南确认了通过使用 AI 工具由人类创作的作品应该根据人类在创作这些作品中的决定性作用进行评估。

“现有法律体系尚未准备好为由 AI 创作作品提供版权，因为 AI 是从现有数据中学习的，而这些数据的权利属于其他人，这挑战了所有权的真正归属。预计明年，通过国家进行的公众调查，将促进解决这一问题。现在，如果没有更广泛的公众参与，很难独立解决这一问题。

——Daria Kuznetsova，Everypixel 公司律师

麦肯锡还发布了一份综合图表，记录了 2023 年最重要的 AI 治理相关政策和监管工作。这一图表突出表现了 2023 年在塑造 AI 律格局方面的重大贡献。

请添加图片描述

版权问题：版权是否限制了 AI 学习模型的训练在很大程度上是一个悬而未决的问题。大多数国家/地区的法律并没有直接解决该问题，而是由法院来解释哪些受版权保护的作品需要许可，哪些不需要许可。（在美国，版权局认为生成的图像不符合版权保护的条件，因此由生成的图像组成的训练语料库是公平的。日本是一个明显的例外：该国的版权法显然允许在受版权保护的作品上训练机器学习模型。

目前的情况：大多数版权法都是很久以前制定的。美国版权法制定于 1790 年，最后一次修订是在 1976 年！在立法者为生成式 AI 法律之前，版权仍将是一个会被反复讨论的问题。

安全

自从 AI 诞生以来，人们对由 AI 造成世界末日情景就充满恐惧。这种对 AI 安全的担忧也促使研究人员提出推迟研究和反省的提议。而在这些对于 AI 安全问题的讨论中，立法者采取了戏剧性的监管措施。

发展

至少自 1950 年代以来，AI驱动的世界末日情景一直在流传，当时计算机科学家和数学家诺伯特·韦纳（Norbert Weiner）声称“现代思维机器可能会导致我们走向毁灭”。而这种担忧在2023年爆发，并被AI社区的知名成员放大：

非营利性生命未来研究所（Future of Life Institute）发表了一封公开信，呼吁暂停训练强大的 AI 模型六个月。它获得了近34,000个签名。
深度学习专家杰弗里·辛顿（Geoffrey Hinton）和约书亚·本吉奥（Yoshua Bengio）表达了他们的担忧，即 AI 的发展可能导致人类灭绝。
谷歌、Microsoft和OpenAI敦促美国国会采取行动。
英国政府召集了国际布莱切利峰会，包括法国、德国、日本、美国和英国在内的 10 个国家同意组成一个小组，定期报告AI的状况。

监管部门的反应

来自不同国家的立法者采取了不同的方法，不同程度地强调预防假设的灾难性风险。

中国的目标是在不限制政府权力的情况下保护公民的隐私不受侵犯。它增加了对 AI 生成的媒体进行标记和禁止人脸识别的要求，但如果涉及到国家安全方面则可以例外；
美国根据现行联邦法律采取行动促进个人隐私和公民权利以及国家安全。尽管美国没有通过国家法规，但白宫与大型 AI 公司合作，制定了自愿限制和行政命令，要求对超过特定计算阈值的模型进行广泛披露和测试。
欧盟的《AI法案》旨在降低最高的感知风险。该法案限制了某些AI应用，包括生物识别或确定就业公共服务的资格。它还要求通用模型的开发人员向监管机构披露信息。该法律减轻了小公司的负担，并为开源模型提供了一些例外情况。与中国一样，它豁免了成员国的军队和警察部队。

发展与安全之间的平衡

AI 有无数有益的应用，我们才刚刚开始探索。对假设的灾难性风险的过度担忧可能会阻碍可能为大量人带来巨大利益的 AI 应用。一些限制 AI 的举措将影响开源开发，这是创新的主要引擎，同时具有反竞争效应，使老牌公司能够继续为自己的狭隘利益开发技术。关键是要权衡监管机构在短期内限制这项技术可能造成的危害，以应对极不可能的灾难性情况。

现状

AI 发展太快，监管机构无法跟上。这需要远见卓识，并愿意努力识别真正的应用级风险，而不是对基础技术实施全面监管，以限制 AI 的潜在危害，同时又不妨碍它所能带来的好处。欧盟的《AI 法案》就是一个很好的例子：该法案最初于 2021 年起草，随着 AI 的高速发展，该法案也经过了多次修订。如果获得最终批准，它将最早在 2025 年生效。只不过到那个时候，现在的法案还是否适用，就是一个未知了。

争议

2023 年充满了引人入胜的讨论，来应对不确定性和 AI 领域不断变化的规范。以下是定义这一年的一些最值得关注的一些讨论：

企业对 ChatGPT 的限制

出于安全和隐私考虑，摩根大通、花旗集团、美国银行、德意志银行、高盛和富国银行等主要金融机构限制了 ChatGPT 的使用。这反映了一个更广泛的趋势，即公司正在向员工发出警告，提醒他们在企业环境中的使用 AI 相关应用可以存在的法律风险。

OpenAI 对低薪工人的使用

《时代周刊》的调查曝光了 OpenAI 与 Sama 的合作，它们在肯尼亚雇用低薪工人为 ChatGPT 筛选敏感内容。这件事情引发了关于工人待遇的伦理问题，以及内容审核对心理健康的影响。

OpenAI 的领导层变更

2023 年 11 月，就在ChatGPT面世一周年之际，OpenAI上演了一场“宫斗大戏”，CEO Altman 完成了从驱逐流亡到王者归来的戏剧性一幕。

而这场“宫斗大戏”深层次矛盾既是“良心科学家” 与 “激进企业家” 之争，也是对有效利他主义的坚持和质疑。当理想主义遭遇现实重击，盈利扩张和非盈利愿景终究鱼与熊掌两难全。而关于 AI 安全性的问题的讨论，也是我们在未来继续发展 AI 时不得不讨论的话题。

Adobe 和 Figma 的交易

Adobe 以 200 亿美元收购 Figma 的计划因监管障碍而受挫，这导致欧盟委员会和英国竞争与市场管理局对潜在的反垄断问题展开调查。这笔交易影响不仅仅局限于设计方面，由于 Adobe 在客户数据平台上的主导地位引发了首席信息官（CIO）对其对云软件支出潜在影响的担忧。然而，由于难以在欧洲和英国获得反垄断批准，Adobe 放弃了这笔交易，并向 Figma 支付了 10 亿美元的违约金。

摄影师扰乱世界摄影大赛

摄影师鲍里斯·埃尔达格森（Boris Eldagsen）通过提交 AI 生成的艺术作品来扰乱索尼世界摄影大赛。埃尔达格森拒绝接受该奖项引发了一场关于 AI 生成图像在传统摄影比赛中的地位的讨论，挑战了人们对真实性和创造力的看法。

Ref

2023: The Year of AI
AI Breakfast
Future Tools
Top AI Stories of 2023
2023，当之无愧的大模型之年
AI大模型混战、百年瑞信谢幕…一文盘点2023全球十大商业事件

标签：人工智能

本文转载自: https://blog.csdn.net/qqqryX/article/details/135893074
版权归原作者 比特比特qqq 所有，如有侵权，请联系我们删除。

2023 AI 发展年终总结

生成式 AI 无处不在

起源

发展

文本生成领域

图像生成领域

视频生成领域

其他重要进展

总结

AI 的合法性问题

欧洲 AI 法案

美国版权局对 AI 生成内容注册的立场

安全

发展

监管部门的反应

发展与安全之间的平衡

现状

争议

Ref

发表评论

“2023 AI 发展年终总结”的评论:

关于作者

overfit同步小助手

相关阅读

文章导航