【人工智能绪论】一次性搞懂什么是AIGC！

🌈** 个人主页：**十二月的猫-CSDN博客
🔥 系列专栏：深度学习_十二月的猫的博客-CSDN博客

💪🏻 十二月的寒冬阻挡不了春天的脚步，十二点的黑夜遮蔽不住黎明的曙光

🏀 专栏持续更新中~~~✨

1. 前言

全新的时代，AIGC（Artificial Intelligence Generative Content，即人工智能生成内容）正在重新塑造着内容创作生态。当常识能被机器识别，当艺术被重新定义，当创意不再需要人工，广告营销行业将迎来一场生产变革巨浪。数英将持续聚焦AIGC领域，通过资讯分享、认知科普、方法总结、深度访谈等，带领大家多方位了解AIGC。

本期内容，我们将梳理22个AI基础概念，带你搞清楚。

以ChatGPT、Midjourney为首的AIGC软件出现至今，不过短短半年时间，已经从方方面面浸入到人们的生活里，与此同时，大量专业术语涌入我们视野。

AI、AIGC、AGI、Bing AI，ChatGPT……这些字母缩写到底是什么？有什么区别？和广告营销有什么关系？

2. AIGC发展历程

AIGC即AI Generated Content，利用人工智能技术来生成内容，是继UGC、PGC之后的新型内容生产方式，AI写作、AI绘画、AI作曲、AI剪辑、AI动画、AI交互等都属于AIGC的分支。

结合人工智能的演进沿革，AIGC的发展历程大致可以分为三个阶段：

早期萌芽阶段（1950s-1990s），受限于当时的科技水平，AIGC仅限于小范围实验。1957 年，莱杰伦·希勒和伦纳德·艾萨克森完成历史第一支由计算机创作的弦乐四重奏《伊利亚克组曲》。1966年，约瑟夫·魏岑鲍姆和肯尼斯·科尔比开发了世界第一款可人机对话的机器人Eliza。80年代中期，IBM创造了语音控制打字机Tangora。

沉淀积累阶段（1990s-2010s），AIGC从实验性向实用性逐渐转变。2006年，深度学习算法、图形处理器、张量处理器等都取得了重大突破。2007年，世界第一部完全由人工智能创作的小说《1 The Road》问世。2012年，微软公开展示了一个全自动同声传译系统，可以自动将英文演讲者的内容通过语音识别、语言翻译、语音合成等技术生成中文语音。

快速发展阶段（2010s至今），深度学习模型不断迭代，AIGC突破性发展。2014年，对抗生产网络GAN出现。2021年，CLIP模型出现；OpenAI推出DALL-E，主要应用于文本与图像交互生成内容。2022年，深度学习模型Diffusion扩散化模型的出现。

新模型下的AIGC所向披靡

过去，互联网的内容都是由用户生成、上传，AI只能协助人类完成一部分最简单、最基础的工作，无法独立生成内容，更不用提优质内容了。但这一状况也因Diffusion扩散化模型的开源应用而被打破，AIGC成为了继UGC之后的又一大内容生成方式。

相较于UGC，AIGC的最大不同是新技术驱动了机器智能创作内容，这使得AIGC具有独特的技术特征，包括数据据量化、内容创造力、跨模态融合、认知交互力等，也正是这些独有的技术能力，让AIGC成为“不可替代”的新一代内容生成方式。

让我们期待，未来AIGC给我们带来的更多精彩！

3. AIGC通俗版介绍

你知道什么是AIGC吗？不知道？没关系，我来告诉你。AIGC就是人工智能生成内容（Artificial Intelligence Generative Content），也就是让AI自己动手创作各种各样的内容，比如图片、视频、音乐、文字等等。听起来很酷吧？那么，AIGC是怎么做到的呢？下面，我就用最简单的语言，给你介绍一下AIGC的基本概念和常见应用。

3.1 AI 工作原理

AI，就是人工智能。它的目标是让机器能够像人一样有智能，能够看、听、说、想、做。要实现这个目标，AI需要用到三个重要的技术：深度学习、神经网络和生成式对抗网络（GAN）。

神经网络

神经网络就是模仿人脑的结构，用一些小点（节点）和线（链接）来连接起来，形成一个复杂的网络。这些小点就像我们大脑里的神经元，可以接收和传递信息；这些线就像我们大脑里的神经纤维，可以控制信息的流动。

深度学习

深度学习就是让神经网络变得更深更强。深度学习把神经网络分成很多层，每一层都负责处理一部分信息，就像我们大脑里有不同功能的区域一样。这样，深度学习可以处理更复杂更高级的问题，比如识别图片里的物体或者理解人说的话。

生成式对抗网络（GAN）

GAN就是让两个神经网络互相斗争，从而提高创作能力。GAN有两个角色：一个叫生成器（Generator），一个叫判别器（Discriminator）。生成器的任务是创造出看起来真实的作品，比如图片、音乐等；判别器的任务是判断这些作品是不是真的，还是生成器做出来的。生成器和判别器不断地互相挑战，生成器越来越擅长造假，判别器越来越擅长识破。最后，生成器可以创造出非常逼真的作品，让人分辨不出真假。

3.2 AI大模型/预训练大模型

AI大模型就是一种超级强大的机器学习模型。它可以处理海量的信息，比如图片、文字、声音等，并且可以完成各种各样的任务。比如智能语音助手和图像识别软件都用到了AI大模型。

AI预训练大模型就是一种已经学过很多东西的AI大模型。它们通过在不同领域进行大量的训练，掌握了很多知识和技能。比如GPT就是一种预训练的大型语言模型，它可以自动生成各种类型的文本，比如新闻、小说、文章、对话等。GPT是目前自然语言处理领域最先进的自然语言生成模型之一。

3.3 开源

开源就是分享和合作的一种方式。在计算机编程中，当一个项目是开源的，意味着它的源代码是公开的，任何人都可以查看、修改和分享。比如你做了一个蛋糕，如果你把蛋糕的配方公开，让所有人都可以做这个蛋糕，甚至可以根据自己的口味改进这个配方，那么这个蛋糕的配方就是开源的。

3.4 自然语言处理（NLP）

自然语言处理（NLP）就是教计算机理解和使用人类语言的一种技术。比如你对手机说：“打开天气应用，查看明天的天气。”这就涉及到了自然语言处理。你的手机需要理解你说的话是什么意思，你想做什么，然后才能执行正确的动作。自然语言处理需要用到很多开源的工具和软件，它们能够帮助研究者处理语言数据，降低开发的难度，加快技术的进步。

3.5 AIGC

AIGC就是由AI自动创作生成的内容（AI Generated Content），比如图片、视频、音乐、文字等。AIGC就像一支神奇的画笔，拥有无限的创造力。这支画笔的特别之处在于，它是由AI打造的。AI利用它的理解力、想象力和创作力，根据指定的需求和风格，创作出各种内容：文章、短篇小说、报告、音乐、图像，甚至是视频。AIGC的出现，打开了一个全新的创作世界，为人们提供了无数的可能性。

从用户生成内容（UGC），到专业生成内容（PGC），再到现在的人工智能生成内容（AIGC），我们看到了内容创作方式的巨大变革和进步。

4. 图解生成式人工智能（AIGC）

4.1 AIGC的发展历程

AIGC（AI-Generated Content）是利用人工智能技术来生成内容。2021年之前，AIGC生成的主要还是文字，而新一代模型可以处理的格式内容包括：文字、语音、代码、图像、视频、机器人动作等等。AIGC被认为是继专业生产内容（PGC，professional-generated content）、用户生产内容（UGC，User-generated content）之后的新型内容创作方式，可以在创意、表现力、迭代、传播、个性化等方面，充分发挥技术优势。

4.2 OpenAI大语言模型发展进程

AIGC绘画模型发布时间以及影响意义对抗生成网络（GAN）2014年真正“教会”AI自己绘画扩散模型（Diffusion Model）2020年大幅提升AI绘画水平stable Diffusion2022年推动AI绘画商业化发展

4.3 技术推进路线

生成模型在人工智能领域有着悠久的历史，可以追溯到1950年代，随着隐马尔可夫模型（HMM）和高斯混合模型（GMM）的发展。这些模型生成了语音和时间序列等顺序数据。然而，直到深度学习的出现，生成模型的性能才有了显著的提高。在深度生成模型的早期，不同的领域通常没有太多重叠。在自然语言处理（NLP）中，生成句子的传统方法是使用N-gram语言建模学习单词分布，然后搜索最佳序列。但是，这种方法不能有效地适应长句。为了解决这个问题，后来引入了递归神经网络（RNNs）用于语言建模任务，允许对相对较长的依赖性进行建模。随后开发了长短期记忆（LSTM）和门控循环单元（GRU），它们利用门控机制在训练过程中控制记忆。这些方法能够在一个样本中处理大约200个标记，与N-gram语言模型相比，这标志着一个显著的改进。同时，在计算机视觉（CV）中，在基于深度学习的方法出现之前，传统的图像生成算法使用了纹理合成和纹理映射等技术。这些算法是以手工设计为基础的功能，并且是有限的，可以生成复杂多样的图像。2014年，生成对抗网络（Generative Adversarial Networks，简称GAN）首次被提出，这是该领域的一个重要里程碑，因为它在各种应用中取得了令人瞩目的成果。变分自编码器（VAE）和其他方法（如扩散生成模型）也被开发出来，用于对图像生成过程进行更精细的控制，并能够生成高质量的图像。
2017 年，Vaswani 等人为 NLP 任务引入了 Transformer，后来被应用于 CV，然后成为各个领域中许多生成模型的主要骨干。在 NLP 领域，许多著名的大型语言模型，例如 BERT 和 GPT，都采用 transformer 架构作为其主要构建块，与以前的构建块（即 LSTM 和 GRU）相比具有优势。在CV中，Vision Transformer（ViT）和Swin Transformer后来通过将Transformer 架构与视觉组件相结合，进一步发展了这一概念，使其能够应用于基于图像的下游。除了变压器为单个模态带来的改进外，这种交集还使来自不同领域的模型能够融合在一起，以实现多模态任务。多模态模型的一个例子是CLIP。CLIP是一个联合视觉语言模型，它将Transformer架构与视觉组件相结合，使其能够根据大量的文本和图像数据进行训练。由于它在预训练期间结合了视觉和语言知识，因此它还可以用作多模态提示生成中的图像编码器。总之，基于 Transformer 的模型的出现彻底改变了 AI 的生成，并导致了大规模训练的可能性。近年来，研究人员也开始引入基于这些模型的新技术。例如，在NLP中，人们有时更喜欢小样本提示，而不是微调，这是指在提示中包括从数据集中选择的几个示例，以帮助模型更好地理解任务需求。在视觉语言中，研究人员经常结合具有自监督对比学习目标的模态特定模型，以提供更强大的表示。未来，随着AIGC的重要性日益凸显，将引入越来越多的技术，为这一领域注入活力。

5. AIGC技术场景

可以将AIGC相关技术场景拓展到四个主要场景：文本处理、音频处理、图像处理、视频处理。

文本处理

目前，文本处理是AIGC相关技术距离普通消费者最近的场景，也是技术较为成熟的场景，许多应用公司都会从多个维度出发，辅助业务拓展与商业化过程中。一般说来文本处理可以细分为营销型、销售型、续写型、知识型、通用型、辅助型、交互型、代码型。

音频处理

此处主要介绍由语音合成技术来生成的相关应用，与视频相关的将放在视频部分说明。目前的音频处理主要分为三类：音乐型、讲话型、定制型，很多公司都专注于此。AI的应用将优化供给效率，改善整体利润水平。

图片处理

图片的创作门槛比文字高，传递信息也更直观，所以商业化的潜力自然也更高。随着AIGC应用的日益广泛，图片处理也就从广告、设计、编辑等角度带来更大更多的机遇。图片处理可细分为生成型、广告型、设计型、编辑型。

视频处理

随着时代的发展，人们在视频上的投入逐渐超出了在图片上的，视频也日益成为新时代最主流的内容消费形态。因此将AIGC引入视频将是全新的赛道，也是技术难度最大的领域。视频处理可以细分为生成型、编辑型、定制型、数字虚拟人视频。

AI绘画应用Midjourney绘制的《太空歌剧院》

大语言模型ChatGP

（以上图片来自于网络）

6. AIGC与下游大语言模型（例：GPT）

AIGC是AI Generated Content的缩写，指利用人工智能技术生成的内容。它也被认为是继PGC,UGC之后的新型内容生产方式，AI绘画、AI写作等都属于AIGC的具体形式。2022年AIGC发展速度惊人，迭代速度更是呈现指数级发展，这其中深度学习模型不断完善、开源模式的推动、大模型探索商业化的可能，都在助力AIGC的快速发展。去年人工智能绘画作品的夺冠、超级聊天机器人ChatGPT的出现，拉开了智能创作时代的序幕。
在人工智能发展的漫长历程中，如何让机器学会创作一直被视为难以逾越的天堑，“创造力”也因此被视为人类与机器最本质的区别之一。然而，人类的创造力也终将赋予机器创造力，把世界送入智能创作的新时代。从机器学习到智能创造，从PGC,UGC到AIGC，我们即将见证一场深刻的生产力变革，而这份变革也会影响到我们工作与生活的方方面面。本书将结合生动的比喻和有趣的案例，向所有关注未来科技的从业者、创业者、投资人、政府部门科普AIGC的商业落地场景和行业应用案例。
趋势判断：人工智能产业经过多年发展，技术实现将从感知智能升级成认知智能，从而引发了机器理解、分析和决策事物的深层次需求。AIGC就是实现认知智能产品化的重要方式。未来几年内，AIGC技术将在多个领域落地。

近几年大语言模型发展时间线及相关应用

AIGC模型发展时间线及相关应用

如果想要学习更多人工智能的知识，大家可以点个关注并订阅，持续学习、天天进步

你的点赞就是我更新的动力，如果觉得对你有帮助，辛苦友友点个赞，收个藏呀~~~

标签： AIGC

本文转载自: https://blog.csdn.net/m0_67656158/article/details/142379907
版权归原作者 十二月的猫 所有，如有侵权，请联系我们删除。