🌈** 个人主页:**十二月的猫-CSDN博客
🔥 系列专栏:深度学习_十二月的猫的博客-CSDN博客💪🏻 十二月的寒冬阻挡不了春天的脚步,十二点的黑夜遮蔽不住黎明的曙光
🏀 专栏持续更新中~~~✨
1. 前言
全新的时代,AIGC(Artificial Intelligence Generative Content,即人工智能生成内容)正在重新塑造着内容创作生态。当常识能被机器识别,当艺术被重新定义,当创意不再需要人工,广告营销行业将迎来一场生产变革巨浪。数英将持续聚焦AIGC领域,通过资讯分享、认知科普、方法总结、深度访谈等,带领大家多方位了解AIGC。
本期内容,我们将梳理22个AI基础概念,带你搞清楚。
以ChatGPT、Midjourney为首的AIGC软件出现至今,不过短短半年时间,已经从方方面面浸入到人们的生活里,与此同时,大量专业术语涌入我们视野。
AI、AIGC、AGI、Bing AI,ChatGPT……这些字母缩写到底是什么?有什么区别?和广告营销有什么关系?
2. AIGC发展历程
AIGC即AI Generated Content,利用人工智能技术来生成内容,是继UGC、PGC之后的新型内容生产方式,AI写作、AI绘画、AI作曲、AI剪辑、AI动画、AI交互等都属于AIGC的分支。
结合人工智能的演进沿革,AIGC的发展历程大致可以分为三个阶段:
早期萌芽阶段(1950s-1990s),受限于当时的科技水平,AIGC仅限于小范围实验。1957 年,莱杰伦·希勒和伦纳德·艾萨克森完成历史第一支由计算机创作的弦乐四重奏《伊利亚克组曲》。1966年,约瑟夫·魏岑鲍姆和肯尼斯·科尔比开发了世界第一款可人机对话的机器人Eliza。80年代中期,IBM创造了语音控制打字机Tangora。
沉淀积累阶段(1990s-2010s),AIGC从实验性向实用性逐渐转变。2006年,深度学习算法、图形处理器、张量处理器等都取得了重大突破。2007年,世界第一部完全由人工智能创作的小说《1 The Road》问世。2012年,微软公开展示了一个全自动同声传译系统,可以自动将英文演讲者的内容通过语音识别、语言翻译、语音合成等技术生成中文语音。
快速发展阶段(2010s至今),深度学习模型不断迭代,AIGC突破性发展。2014年,对抗生产网络GAN出现。2021年,CLIP模型出现;OpenAI推出DALL-E,主要应用于文本与图像交互生成内容。2022年,深度学习模型Diffusion扩散化模型的出现。
新模型下的AIGC所向披靡
过去,互联网的内容都是由用户生成、上传,AI只能协助人类完成一部分最简单、最基础的工作,无法独立生成内容,更不用提优质内容了。但这一状况也因Diffusion扩散化模型的开源应用而被打破,AIGC成为了继UGC之后的又一大内容生成方式。
相较于UGC,AIGC的最大不同是新技术驱动了机器智能创作内容,这使得AIGC具有独特的技术特征,包括数据据量化、内容创造力、跨模态融合、认知交互力等,也正是这些独有的技术能力,让AIGC成为“不可替代”的新一代内容生成方式。
让我们期待,未来AIGC给我们带来的更多精彩!
3. AIGC通俗版介绍
你知道什么是AIGC吗?不知道?没关系,我来告诉你。AIGC就是人工智能生成内容(Artificial Intelligence Generative Content),也就是让AI自己动手创作各种各样的内容,比如图片、视频、音乐、文字等等。听起来很酷吧?那么,AIGC是怎么做到的呢?下面,我就用最简单的语言,给你介绍一下AIGC的基本概念和常见应用。
3.1 AI 工作原理
AI,就是人工智能。它的目标是让机器能够像人一样有智能,能够看、听、说、想、做。要实现这个目标,AI需要用到三个重要的技术:深度学习、神经网络和生成式对抗网络(GAN)。
神经网络
神经网络就是模仿人脑的结构,用一些小点(节点)和线(链接)来连接起来,形成一个复杂的网络。这些小点就像我们大脑里的神经元,可以接收和传递信息;这些线就像我们大脑里的神经纤维,可以控制信息的流动。
深度学习
深度学习就是让神经网络变得更深更强。深度学习把神经网络分成很多层,每一层都负责处理一部分信息,就像我们大脑里有不同功能的区域一样。这样,深度学习可以处理更复杂更高级的问题,比如识别图片里的物体或者理解人说的话。
生成式对抗网络(GAN)
GAN就是让两个神经网络互相斗争,从而提高创作能力。GAN有两个角色:一个叫生成器(Generator),一个叫判别器(Discriminator)。生成器的任务是创造出看起来真实的作品,比如图片、音乐等;判别器的任务是判断这些作品是不是真的,还是生成器做出来的。生成器和判别器不断地互相挑战,生成器越来越擅长造假,判别器越来越擅长识破。最后,生成器可以创造出非常逼真的作品,让人分辨不出真假。
3.2 AI大模型/预训练大模型
AI大模型就是一种超级强大的机器学习模型。它可以处理海量的信息,比如图片、文字、声音等,并且可以完成各种各样的任务。比如智能语音助手和图像识别软件都用到了AI大模型。
AI预训练大模型就是一种已经学过很多东西的AI大模型。它们通过在不同领域进行大量的训练,掌握了很多知识和技能。比如GPT就是一种预训练的大型语言模型,它可以自动生成各种类型的文本,比如新闻、小说、文章、对话等。GPT是目前自然语言处理领域最先进的自然语言生成模型之一。
3.3 开源
开源就是分享和合作的一种方式。在计算机编程中,当一个项目是开源的,意味着它的源代码是公开的,任何人都可以查看、修改和分享。比如你做了一个蛋糕,如果你把蛋糕的配方公开,让所有人都可以做这个蛋糕,甚至可以根据自己的口味改进这个配方,那么这个蛋糕的配方就是开源的。
3.4 自然语言处理(NLP)
自然语言处理(NLP)就是教计算机理解和使用人类语言的一种技术。比如你对手机说:“打开天气应用,查看明天的天气。”这就涉及到了自然语言处理。你的手机需要理解你说的话是什么意思,你想做什么,然后才能执行正确的动作。自然语言处理需要用到很多开源的工具和软件,它们能够帮助研究者处理语言数据,降低开发的难度,加快技术的进步。
3.5 AIGC
AIGC就是由AI自动创作生成的内容(AI Generated Content),比如图片、视频、音乐、文字等。AIGC就像一支神奇的画笔,拥有无限的创造力。这支画笔的特别之处在于,它是由AI打造的。AI利用它的理解力、想象力和创作力,根据指定的需求和风格,创作出各种内容:文章、短篇小说、报告、音乐、图像,甚至是视频。AIGC的出现,打开了一个全新的创作世界,为人们提供了无数的可能性。
从用户生成内容(UGC),到专业生成内容(PGC),再到现在的人工智能生成内容(AIGC),我们看到了内容创作方式的巨大变革和进步。
4. 图解生成式人工智能(AIGC)
4.1 AIGC的发展历程
AIGC(AI-Generated Content)是利用人工智能技术来生成内容。2021年之前,AIGC生成的主要还是文字,而新一代模型可以处理的格式内容包括:文字、语音、代码、图像、视频、机器人动作等等。AIGC被认为是继专业生产内容(PGC,professional-generated content)、用户生产内容(UGC,User-generated content)之后的新型内容创作方式,可以在创意、表现力、迭代、传播、个性化等方面,充分发挥技术优势。
4.2 OpenAI大语言模型发展进程
AIGC绘画模型发布时间以及影响意义对抗生成网络(GAN)2014年 真正“教会”AI自己绘画扩散模型(Diffusion Model)2020年 大幅提升AI绘画水平stable Diffusion2022年 推动AI绘画商业化发展
4.3 技术推进路线
生成模型在人工智能领域有着悠久的历史,可以追溯到1950年代,随着隐马尔可夫模型(HMM)和高斯混合模型(GMM)的发展。这些模型生成了语音和时间序列等顺序数据。然而,直到深度学习的出现,生成模型的性能才有了显著的提高。在深度生成模型的早期,不同的领域通常没有太多重叠。在自然语言处理(NLP)中,生成句子的传统方法是使用N-gram语言建模学习单词分布,然后搜索最佳序列。但是,这种方法不能有效地适应长句。为了解决这个问题,后来引入了递归神经网络(RNNs)用于语言建模任务,允许对相对较长的依赖性进行建模。随后开发了长短期记忆(LSTM)和门控循环单元(GRU),它们利用门控机制在训练过程中控制记忆。这些方法能够在一个样本中处理大约200个标记,与N-gram语言模型相比,这标志着一个显著的改进。同时,在计算机视觉(CV)中,在基于深度学习的方法出现之前,传统的图像生成算法使用了纹理合成和纹理映射等技术。这些算法是以手工设计为基础的功能,并且是有限的,可以生成复杂多样的图像。2014年,生成对抗网络(Generative Adversarial Networks,简称GAN)首次被提出,这是该领域的一个重要里程碑,因为它在各种应用中取得了令人瞩目的成果。变分自编码器(VAE)和其他方法(如扩散生成模型)也被开发出来,用于对图像生成过程进行更精细的控制,并能够生成高质量的图像。
2017 年,Vaswani 等人为 NLP 任务引入了 Transformer,后来被应用于 CV,然后成为各个领域中许多生成模型的主要骨干 。在 NLP 领域,许多著名的大型语言模型,例如 BERT 和 GPT,都采用 transformer 架构作为其主要构建块,与以前的构建块(即 LSTM 和 GRU)相比具有优势。在CV中,Vision Transformer(ViT)和Swin Transformer后来通过将Transformer 架构与视觉组件相结合,进一步发展了这一概念,使其能够应用于基于图像的下游。除了变压器为单个模态带来的改进外,这种交集还使来自不同领域的模型能够融合在一起,以实现多模态任务。多模态模型的一个例子是CLIP。CLIP是一个联合视觉语言模型,它将Transformer架构与视觉组件相结合,使其能够根据大量的文本和图像数据进行训练。由于它在预训练期间结合了视觉和语言知识,因此它还可以用作多模态提示生成中的图像编码器。总之,基于 Transformer 的模型的出现彻底改变了 AI 的生成,并导致了大规模训练的可能性。近年来,研究人员也开始引入基于这些模型的新技术。例如,在NLP中,人们有时更喜欢小样本提示,而不是微调,这是指在提示中包括从数据集中选择的几个示例,以帮助模型更好地理解任务需求。在视觉语言中,研究人员经常结合具有自监督对比学习目标的模态特定模型,以提供更强大的表示。未来,随着AIGC的重要性日益凸显,将引入越来越多的技术,为这一领域注入活力。
5. AIGC技术场景
可以将AIGC相关技术场景拓展到四个主要场景:文本处理、音频处理、图像处理、视频处理。
文本处理
目前,文本处理是AIGC相关技术距离普通消费者最近的场景,也是技术较为成熟的场景,许多应用公司都会从多个维度出发,辅助业务拓展与商业化过程中。一般说来文本处理可以细分为营销型、销售型、续写型、知识型、通用型、辅助型、交互型、代码型。
音频处理
此处主要介绍由语音合成技术来生成的相关应用,与视频相关的将放在视频部分说明。目前的音频处理主要分为三类:音乐型、讲话型、定制型,很多公司都专注于此。AI的应用将优化供给效率,改善整体利润水平。
图片处理
图片的创作门槛比文字高,传递信息也更直观,所以商业化的潜力自然也更高。随着AIGC应用的日益广泛,图片处理也就从广告、设计、编辑等角度带来更大更多的机遇。图片处理可细分为生成型、广告型、设计型、编辑型。
视频处理
随着时代的发展,人们在视频上的投入逐渐超出了在图片上的,视频也日益成为新时代最主流的内容消费形态。因此将AIGC引入视频将是全新的赛道,也是技术难度最大的领域。视频处理可以细分为生成型、编辑型、定制型、数字虚拟人视频。
AI绘画应用Midjourney绘制的《太空歌剧院》
大语言模型ChatGP
(以上图片来自于网络)
6. AIGC与下游大语言模型(例:GPT)
AIGC是AI Generated Content的缩写,指利用人工智能技术生成的内容。它也被认为是继PGC,UGC之后的新型内容生产方式,AI绘画、AI写作等都属于AIGC的具体形式。2022年AIGC发展速度惊人,迭代速度更是呈现指数级发展,这其中深度学习模型不断完善、开源模式的推动、大模型探索商业化的可能,都在助力AIGC的快速发展。去年人工智能绘画作品的夺冠、超级聊天机器人ChatGPT的出现,拉开了智能创作时代的序幕。
在人工智能发展的漫长历程中,如何让机器学会创作一直被视为难以逾越的天堑,“创造力”也因此被视为人类与机器最本质的区别之一。然而,人类的创造力也终将赋予机器创造力,把世界送入智能创作的新时代。从机器学习到智能创造,从PGC,UGC到AIGC,我们即将见证一场深刻的生产力变革,而这份变革也会影响到我们工作与生活的方方面面。本书将结合生动的比喻和有趣的案例,向所有关注未来科技的从业者、创业者、投资人、政府部门科普AIGC的商业落地场景和行业应用案例。
趋势判断:人工智能产业经过多年发展,技术实现将从感知智能升级成认知智能,从而引发了机器理解、分析和决策事物的深层次需求。AIGC就是实现认知智能产品化的重要方式。未来几年内,AIGC技术将在多个领域落地。
近几年大语言模型发展时间线及相关应用
AIGC模型发展时间线及相关应用
如果想要学习更多人工智能的知识,大家可以点个关注并订阅,持续学习、天天进步
你的点赞就是我更新的动力,如果觉得对你有帮助,辛苦友友点个赞,收个藏呀~~~
版权归原作者 十二月的猫 所有, 如有侵权,请联系我们删除。