0


[人工智能-sora] Sora的到来,到底意味着什么? 访谈摘要

本文由Markdown语法编辑器编辑完成。

1. 前言

2024年2月16日凌晨(美国时间2月15日),OpenAI发布了“文生视频”(text-to-video)的工具,Sora。整个世界再次被震撼了。人类用无数种语言,在全球的社交媒体上惊呼:现实,不存在了。

https://openai.com/research/video-generation-models-as-world-simulators

在这里插入图片描述
![](https://img-blog.csdnimg.cn/direct/d8780566a4e244d78ac6db9d02e74a85.jpeg#pic_center

在这里插入图片描述
在这里插入图片描述

看到sora发布的这些精美的视频,谁能不为之惊讶呢!

Sora就像是一个已经完全理解了这个世界的基本的运行规律的专业人士。

在第一幅视频截图中,
Sora知道了在潮湿的街道上,街道上面的水会将附近的街景产生倒影;女士的戴的眼镜,也可以反射她看到的景象;而且随着她在街道上不断地往前走动,她眼镜里面的影像也在随之发生变化;

在第二幅视频截图中,
Sora知道了一个老人在啃了一口汉堡后,那个汉堡的相应位置,会留出一个咬痕;

在第三幅视频截图中,
Sora就像拿了一个摄像机,在跟拍一下,从远到近,而且一路跟拍着这对情侣,漫步于两边都是樱花的街头。

在一年前,发布chatgpt时,人们还认为人工智能能完成和人类的对话已经很了不起了;接着Run away, Pika, 已经可以根据文本,生成4 ~ 十几秒的视频,已经又是跨越式的进展了。

结果,OpenAI发布的Sora, 直接就可以生成1min长度的视频,而且效果和质量都是如此的精良。怪不得让很多行业大咖都惊讶不已,迅速出圈。

作为程序员的我们,当然不能仅仅跟着惊讶,还是需要了解一些内部的工作原理。

恰逢,润总在他的访谈中,邀请到了百姓AI的创建人建硕,一起来了一次3个小时的探讨,主题就是:“Sora的到来,到底意味着什么?” 访谈中,润总老师,代表他自己和很多观众,提出了很多很多的问题,而且都一一的进行了细致的探讨。我在敬佩两位老师的渊博知识外,也希望大家能够了解其中的一些细节。因此,对这次访谈的内容,进行了一些摘录。

以下便是访谈的一些摘录。

2. 访谈摘要

下面分别用R(润)和S(硕)代表两位老师的观点。

R: 如何看待Sora?
它厉害,大家都知道它厉害,它厉害在什么地方,它为什么这里厉害,

  • 对我们意味着什么?
  • 中国离Sora还有多大的距离?
  • 能不能走到那里,需要多久的时间?
  • 中国哪些机构做得不错,哪些还有潜力?
  • 作为创业者,普通的管理者,我们的机会在哪里?
  • 作为个人,机会在哪里?
  • 它会不会影响到未来孩子报什么专业?将来孩子学什么内容?

技术文档,给出了一些实现的细节。但是,还有一些,只能是猜测的。

S: 看别人使用,和自己使用,差别很大。
AI制作视频,其实之前已经有很多铺垫,但是没有出圈。

其实非常多的技术,需要出圈。可能都是很偶然的。比如博客的出圈,是木子美;iPad出圈,是因为切水果,愤怒的小鸟的游戏等;

那么Sora到底厉害在哪里呢?

这就要说明一下它的实现了。

如果是用摄像机拍摄。比如,拍摄我们两个人坐在这里,喝水喝聊天。其实摄像机,只需要真实的把画面中的内容,记录下来即可。它只是做了一个记录的工作。至于拍摄的内容,它都是符合世界规律的,是受物理的各种规律支配的。

但是,如果是用软件来虚构视频,它就需要理解物理规律。

你告诉我,如果这些视频是Pixar(乔布斯创办的影视公司)做出来的,我一定都不惊讶。
因为这些视频,3d建模都能做出来,一点都不惊讶。

世界模型:用建模的方式,在虚拟空间中,把世界建好。

比如之前很多的动画电影,《玩具总动员》,它里面的情节,我们看起来都是符合真实世界的物理规律的。是因为这些都是人设计好的,这些规律是存在了人的脑海中,然后当成了一条规律,写进了3d建模软件中。

正是因为这个原因,过去用3d建模的软件来做一个视频,需要的算法很大,需要技术人员投入很多,将各种各样的规律写进软件,才可以建构出相对真实的世界。因此视频的成本也很高。

而现在Sora发布的视频,不需要人类提前把规律写进去,是AI自己学会的。

OpenAI同步发布了一个技术文档,来介绍视频生成的技术,文档的名称是:《Video generation models as world simulators》,翻译过来大概是,视频生成模型,作为世界模拟器。

这里要注意两者的区别。

如果是Adobe的全家桶软件,它们是:世界模型作为世界模拟器;
OpenAI的sora, 是: 视频生成模型作为世界模拟器;

=================================================================

关于视频中,一个老人咬了一口汉堡,留痕。

R: 人工智能,其实一直存在两个学派:符号派 VS 联结派。

符号派认为,智能是通过了解了很多的规律和符号,然后来认识这个世界的;比如学习语言和说话,我们了解了主谓宾,副词,状语等各种符号;
联结派认为,智能是由于很多神经元的联结进而产生的。

就好比我们人类学习语言,其实就是从小到大,听得多了,自然就会说了。

所以事后证明,符号派是错误的;联结派,完全占据了人工智能的主流。

人类的神经元,860亿条连接。
神经网络:Neural network.

只有牛顿总结过,三大定律

一种是可描述的,一种是不可描述的。

人类早就用不可描述的模式,认识世界。

拿杯子,我知道拿有水的,和没有水的杯子,重量不同。

大模型,大在什么地方?

  • 不是数据量大。
  • 学习了2个TB的数据量。如果是纯文本,很大。但比起google学习的数据量,其实只有百万分之一。
  • 所以,openAI的模型,是体现在了模型的参数量非常的大。约有1750亿个参数。

OpenAI的信仰Scaling, 就是大,规模一定要大,大力出奇迹。
它的参数数量,从600万,到60亿,600亿,再到1750亿个参数。

=====================================================================
解读一下视频生成的原理?
Midjourney.
非常非常长的技术栈。

假设大家已经知道,从一段文字生成一张图片。
戴着一个帽子的猫。

37:00
描述 -> 图片。
生成视频的挑战。
视频,是连续的图片。
帧和帧是分开生成的,但是噪音很大。没办法保持稳定。

Sora的特征:3d卷积网络。
它不是一帧一帧切,还是16张切。

Square -> cube
X,y -> x,y,t
保证了在时间上的连续。不会有跳动。

刘润总结:
Space time patch. 时空的概念。时间上的连续性。

Unet模型:特征提取到最小,再一层一层还原。
它要求输入的图像,是大小一致的。
训练的时候,把图像都设置成512*512.

OpenAI:
Unet -> transformer.
输入的序列,长度是变长的。
不挑食,没有对视频进行压缩,裁剪。

对视频的很多确定性的要求,都去掉了。

Diffusion model -> Transformer model

Diffusion model:
文字怎么生成图片?

电子信号由于布朗运动,高斯噪音。不含任何信息的噪音。
噪音,随机数

一张图片,加一些噪音,加一些噪音,变成高斯白噪音。
预测,加了哪个噪音,生成了这样的图片。
赶紧调整它的参数。
从噪音,再如何回到图片。

52:50:
刘润总结:
Diffusion model: 扩散
一滴墨水,滴到玻璃杯。-> 扩散 -> 均匀的浅蓝色。
扩散
加噪音:是数据集,然后去训练。怎么减噪音,这个叫训练。
去噪音

把图变成白噪音,再用白噪音还原出图。

Sora: diffusion + transformer(google的论文写的)
30亿个参数,暴力美学。

高考的分数。很多题,是你的语文,数学,英语成绩。
单向的过程。

680分,你能帮我生成它的答卷的分数。
-刘老师,语文,数学超级好,化学
语文147, 数学:149, 化学:135. ……
那部分强,那部分弱,就可以

不了解原理,看成是哲学。

61:47 总结:
AI: 算法,算力,数据。
Diffusion + Transformer. 能够生成不受条件限制的视频。
大量的算法,30亿的参数。
很多显卡,电力,数据集。
给世界带来什么影响?影响什么行业。

忘了自己为什么有这份工作?
现在有的工作,是因为技术的发展,计算机的发展。

凡是我出身前的技术,都是世界的一部分;
凡是25岁以前的技术,都是改变人类的;25岁以后的技术,都是邪恶的。
完全来自自己所处的立场。

视频制作行业,大大的利好。

Sora的出现,当做是Adobe软件的一次大大的升级。

高抽象度,低抽象度
构思,段落,句子,写出来,钢笔写出来。

工程师一条线,建筑工人一身汗。
高抽象度,低抽象度。

所有人都是懒的。

凡是机器能干的工作,我们就尽量不干。不要和计算机吃醋。
影视行业:短视频,长视频行业。

哪些是低,哪些是高抽象度的。
剧务

浙江的绍兴,中国的横店,世界的义乌

今天插秧的人,明天不一定坐到总控室。
时代的进步:淘汰一部分,然后让另一部分成长起来。
替换。

个体的关怀:
下岗女工:退休
你帮我解释一下,为什么你之前每天辛勤的劳动,却只能换来一辆自行车;但现在却可以换来30辆自行车。
是因为你的努力,还是因为把你挤下岗的自动纺织机。

82:10
科技的进步:一切可以提高生产效率的,都叫科技。
整个社会的总财富增加,然后社会,国家,制度再通过一种分配机制,

美国:人工智能税。

财富增加,都会有自动分配的机制,不见得均匀分配。

我不想等社会的分配,我想抓住机会。

学习:上一代人,和我们这一代人,学的不一样。
微软学得很多,都没用了。

我们必须学会用promt, 跟大语言去交流。

影视行业的从业人员:
你已经是佼佼者了。本身就是一个爱学习的人。把它理解成,一个软件的升级版本。

忆苦思甜。
同样一份工作,越来越顺手。

学习的前提:不要闹脾气。
武僧遇到洋枪队。

武僧,跟洋枪较劲。

保持开放度和灵活性。
你的工作是,生成视频。而不是用工具。

90:00
未来人人都可以当导演。说明这个事情越来越难了。

人人都能做的话,我为什么要请你。

什么不会变?商业的本质,稀缺性,供给。

每次的技术变革,都是一次反思的机会。我们的工作还稀缺吗?

有的职业:是因为人人都能做,所以消失了。电梯操作员,售票员等;
有的职业:所有人的水平都提升,这个行业会变大。

程序员:汇编 -> 高级语言
20万 -> 1000万 -> 5亿
基数变大,越来越不稀缺了。
需求越大了。

比起20年,跟计算机无关的工作,都跟计算机有关了。

电视的带宽:带宽增加,网站变得更快。
4k, 8k, ……

效率的提升,不是简单的提升。是指数级的提升。

程序员,带宽,激发了本来增长的需求。在更大的赛道上。

选择职业:孩子应该学什么?
凡是受到chatgpt冲击的行业,必将走向繁荣,一定要冲进去。
凡是没有受到,躲得远远的。

程序员:前端 framework.
Vue, react.
活变得越来越多。

婚礼:后面生成一个视频。
井喷一样的需求增长。
视频生成。大量的需求,会井喷式发展。

四大的审计师,理发师。

视频制作员,不一定服务电影,可以服务抖音,tiktok.

去年讨论的时候,还是文本生成,是不是记者不需要了。

个人的建议:
对编程感兴趣,一定要学。

人生收益:三四年级,学了计算机。
娃娃,被抓去学电脑。
计算机,第一堂课,26个字母。

小学,中学,大学学得,都没用。
带你进了计算机这个赛道。

让自己的孩子,保持在主航道。
人工智能主航道。

医学:计算机辅助蛋白质。
并没有改变,医生看病的工作。只是工具在变。

8年之后还会出现什么,无法预测。

编程,数学,主航道,跟人工智能对话的技术。

人工智能,开到汽车,开到生命科学,保持在主航道。

=========================================
中国300个大模型。
距离Sora到底有多远?

1> 悲观
Gap,
Gpt3 , 3.5, 4.
2> 乐观
百姓AI: 做应用层的。
大模型的能力,和国内的需求联系在一起。

116:20 只要我们的模型在一直往前走,
只要大语言模型,跨过了需求的这个线,对国家

超过chatgpt是争鸣,超过需求,是争利。

2023年底,能达到chatgpt3.5.
不是唯一重要的事。
只要能超过某个点,对于国家就是好的,利于财富的增长。

286,386,486,
科技的发展,一定会放缓。中国的追赶,是有时间窗口的。

OpenAI:
验证了这条道路是可以走通的。

丝绸,瓷器。蒸汽机,电力。

我们到底能多快的?系统性的优势。

芯片的问题,Nvidia, 高端芯片对于中国是禁用的。

从应用的角度,中国

我们的芯片有差距,技术有差距,算力有差距。
材料在美国率先研究出来,武器率先研究出来。会加大落差。
生物技术,疾病,确实很令人担心。

126:00
它到底发生得多快?
Sora, 是否真得理解了这个世界?理解了世界模型。

Sora, 看起来理解了世界。
你认为我理解了这个世界?

从黑盒看来,它已经有了意识。
让我们相信,它已经有了意识。

AGI: 等同于聪明。
Moving target. 我们永远达不到AGI.

香农,图灵测试。永远都达不到

我们现在的生活,是几十年前的天堂。
但我们会认为不是天堂。

中国什么时候会做出sora?

近期一两年出现sora,

Chatgpt 3.0的影响。
Sora不做,是因为不知道这条路是否能走下去。

路线被证明是对的,不同公司通过不同路径的追赶。

《千脑智能》,后半部分预测错了。
世界模型:记忆和预测。
预测了一个台阶,结果踩空。
记忆模型 -> 预测 -> 记忆

Elon musk: GG人类。

135:00
中国在做基础模型的研究,太耗资源。算力。
应用型的研究。

全名去淘金。
互联网:netscape出来,网站,商业模式,付费,物流
花了10年,才真正的应用起来。

大语言模型:拿着锤子找钉子。商业论坛。

商业变革:都是

火:不是为了吃肉,而找火。

不是特别短的过程。

应用,会像散点一样的应用。

2000年,觉得互联网很厉害。.com泡沫

离信息高速公路有多远,过海100米。

新浪:吃的传统业务的红利。

94年底,互联网进入中国。

凡是会被我们想到的,10年内可以实现。
从想到,和能做到,10~20年作业。

98年,做B2C电子商务。

想象的过早,政策可能会过早。

用户可能还没有ready, 还没有准备好。七龙珠,AI只是其中的一颗龙珠。

很多人,都在找商业模式。
妙鸭相机。

尝鲜性的应用。

当下能看到的机遇:
工具(手电筒),下载软件(fomail),

Iphone里面的原生应用:
Google, 美团,打车
AI里面的原生应用:naïve app.
Agent, 智能体(秘书,满世界帮忙)

企业里面:
初级工作,容错性高的职位,越早的,可能会被取代;

律师,医疗,自动驾驶,一直处于辅助的工作。
自动驾驶,很难取代。

Sora, chagpt, 人也会犯错。

春晚,约瑟夫环。
Chatgpt,写了一个约瑟夫环。
Chatgpt, 代码已经写出来了,但是结果会出错。

做精密度非常高的工作,无法完全信任它。
你不知道,chatgpt的那句话会犯错,哪里埋了一个雷。
我可能会犯错。

152:00
人类不知道,chatgpt,sora,为什么有智能。
不知道的事情,无法控制。

涌现:到底为什么会有?
Sam: 我们也不知道它为什么会有智能。

人的智能,神经元的聚集涌现出来的。

围棋,智能,情感,意识, ……
更大规模的神经元,涌现出来的。

Chatgpt, 没有情感,没有意识。
和人类的表现越来越像。

恍恍惚惚的明意识,潜意识。

树突,训练好的,潜意识。
明意识,

这个世界,也不是真实存在的。

大脑,泡在液体里面的一坨肉。

智能大概有三件事情:感知 – 智能 – 行动。
Chatgpt: 感知,判断,行动。

视频感知世界 – chagpt – sora.

全世界的公共摄像头,都接入sora, 给装上手脚。

具生:具有行动力了。

看世界,就可以理解了。

小孩子,不会动的时候,很危险。等他能动的时候,就危险了。

《终结者》,天网:

车在英国出现的时候,大家很害怕。想的还是,世界上都是广场上走的妇女儿童。刚看到车的时候,想不到有公路。

技术,保证它的安全,保证它的安全。
电越来越重要,特别多的措施,保证它不会出错。

AI, 交给坏人,很可怕。
好人,要保证坏人不能做破坏。
不是自然发生,需要很多努力才能做到。

人工智能,和之前的很多技术都不一样。
汽车,是被动的,人不动,它就不会动。
人工智能,如果有了独立意识,
——三大定律,不能伤害人类。

人工智能,和人的价值观,完全对齐。

和平,是在整个冲突中达到的。
数字货币,核弹。

核弹,掌握在坏人手中,很危险。它掌握在国家,没有掌握在坏人。

核弹,获得原材料很难。技术已经能达到。

对中国可以改变的机会?

对AI ,只能卖课吗?

有什么建议?
科技的发展,还是在加速。
保持开放,不要紧张。保持学习。
海面上的船,海面上升

人,保持懒惰。
有洗衣机的时候,绝对不手洗。

Sora能生成的,就用sora.

恐慌,对抗的情绪,都不必要。

技术的周期:
1700年,
第一次工业革命:GDP的增速,人均GDP,疯狂增长。
第二次工业革命:

全球经济,降速。
互联网和技术革命,已经普惠了。
年轻人在抱怨,似乎没有什么机会了。
你们那个年代,一努力,就会有机会。

这波机会来了,
未来的app.

一代人有一代人的机会。
非常好的机会,

很羡慕这一代的大学生。

进入一个行业的时候,正好是一个行业的兴起。

技术的发展,不是匀速的。

23,24年,就是这个世界。
带来前所未有的方式。确定的是一个机遇。

标签: 人工智能

本文转载自: https://blog.csdn.net/inter_peng/article/details/136253248
版权归原作者 inter_peng 所有, 如有侵权,请联系我们删除。

“[人工智能-sora] Sora的到来,到底意味着什么? 访谈摘要”的评论:

还没有评论