[人工智能-sora] Sora的到来，到底意味着什么? 访谈摘要

本文由Markdown语法编辑器编辑完成。

1. 前言

2024年2月16日凌晨（美国时间2月15日），OpenAI发布了“文生视频”（text-to-video）的工具，Sora。整个世界再次被震撼了。人类用无数种语言，在全球的社交媒体上惊呼：现实，不存在了。

https://openai.com/research/video-generation-models-as-world-simulators

在这里插入图片描述
![](https://img-blog.csdnimg.cn/direct/d8780566a4e244d78ac6db9d02e74a85.jpeg#pic_center

在这里插入图片描述

看到sora发布的这些精美的视频，谁能不为之惊讶呢!

Sora就像是一个已经完全理解了这个世界的基本的运行规律的专业人士。

在第一幅视频截图中，
Sora知道了在潮湿的街道上，街道上面的水会将附近的街景产生倒影；女士的戴的眼镜，也可以反射她看到的景象；而且随着她在街道上不断地往前走动，她眼镜里面的影像也在随之发生变化；

在第二幅视频截图中，
Sora知道了一个老人在啃了一口汉堡后，那个汉堡的相应位置，会留出一个咬痕；

在第三幅视频截图中，
Sora就像拿了一个摄像机，在跟拍一下，从远到近，而且一路跟拍着这对情侣，漫步于两边都是樱花的街头。

…

在一年前，发布chatgpt时，人们还认为人工智能能完成和人类的对话已经很了不起了；接着Run away, Pika, 已经可以根据文本，生成4 ~ 十几秒的视频，已经又是跨越式的进展了。

结果，OpenAI发布的Sora, 直接就可以生成1min长度的视频，而且效果和质量都是如此的精良。怪不得让很多行业大咖都惊讶不已，迅速出圈。

作为程序员的我们，当然不能仅仅跟着惊讶，还是需要了解一些内部的工作原理。

恰逢，润总在他的访谈中，邀请到了百姓AI的创建人建硕，一起来了一次3个小时的探讨，主题就是：“Sora的到来，到底意味着什么？” 访谈中，润总老师，代表他自己和很多观众，提出了很多很多的问题，而且都一一的进行了细致的探讨。我在敬佩两位老师的渊博知识外，也希望大家能够了解其中的一些细节。因此，对这次访谈的内容，进行了一些摘录。

以下便是访谈的一些摘录。

2. 访谈摘要

下面分别用R（润）和S（硕）代表两位老师的观点。

R: 如何看待Sora?
它厉害，大家都知道它厉害，它厉害在什么地方，它为什么这里厉害，

对我们意味着什么？
中国离Sora还有多大的距离？
能不能走到那里，需要多久的时间？
中国哪些机构做得不错，哪些还有潜力？
作为创业者，普通的管理者，我们的机会在哪里？
作为个人，机会在哪里？
它会不会影响到未来孩子报什么专业？将来孩子学什么内容？

技术文档，给出了一些实现的细节。但是，还有一些，只能是猜测的。

S: 看别人使用，和自己使用，差别很大。
AI制作视频，其实之前已经有很多铺垫，但是没有出圈。

其实非常多的技术，需要出圈。可能都是很偶然的。比如博客的出圈，是木子美；iPad出圈，是因为切水果，愤怒的小鸟的游戏等;

那么Sora到底厉害在哪里呢？

这就要说明一下它的实现了。

如果是用摄像机拍摄。比如，拍摄我们两个人坐在这里，喝水喝聊天。其实摄像机，只需要真实的把画面中的内容，记录下来即可。它只是做了一个记录的工作。至于拍摄的内容，它都是符合世界规律的，是受物理的各种规律支配的。

但是，如果是用软件来虚构视频，它就需要理解物理规律。

你告诉我，如果这些视频是Pixar(乔布斯创办的影视公司)做出来的，我一定都不惊讶。
因为这些视频，3d建模都能做出来，一点都不惊讶。

世界模型：用建模的方式，在虚拟空间中，把世界建好。

比如之前很多的动画电影，《玩具总动员》，它里面的情节，我们看起来都是符合真实世界的物理规律的。是因为这些都是人设计好的，这些规律是存在了人的脑海中，然后当成了一条规律，写进了3d建模软件中。

正是因为这个原因，过去用3d建模的软件来做一个视频，需要的算法很大，需要技术人员投入很多，将各种各样的规律写进软件，才可以建构出相对真实的世界。因此视频的成本也很高。

而现在Sora发布的视频，不需要人类提前把规律写进去，是AI自己学会的。

OpenAI同步发布了一个技术文档，来介绍视频生成的技术，文档的名称是：《Video generation models as world simulators》，翻译过来大概是，视频生成模型，作为世界模拟器。

这里要注意两者的区别。

如果是Adobe的全家桶软件，它们是：世界模型作为世界模拟器；
OpenAI的sora, 是: 视频生成模型作为世界模拟器；

=================================================================

关于视频中，一个老人咬了一口汉堡，留痕。

R: 人工智能，其实一直存在两个学派：符号派 VS 联结派。

符号派认为，智能是通过了解了很多的规律和符号，然后来认识这个世界的；比如学习语言和说话，我们了解了主谓宾，副词，状语等各种符号；
联结派认为，智能是由于很多神经元的联结进而产生的。

就好比我们人类学习语言，其实就是从小到大，听得多了，自然就会说了。

所以事后证明，符号派是错误的；联结派，完全占据了人工智能的主流。

人类的神经元，860亿条连接。
神经网络：Neural network.

只有牛顿总结过，三大定律

一种是可描述的，一种是不可描述的。

人类早就用不可描述的模式，认识世界。

拿杯子，我知道拿有水的，和没有水的杯子，重量不同。

大模型，大在什么地方？

不是数据量大。
学习了2个TB的数据量。如果是纯文本，很大。但比起google学习的数据量，其实只有百万分之一。
所以，openAI的模型，是体现在了模型的参数量非常的大。约有1750亿个参数。

OpenAI的信仰Scaling, 就是大，规模一定要大，大力出奇迹。
它的参数数量，从600万，到60亿，600亿，再到1750亿个参数。

=====================================================================
解读一下视频生成的原理？
Midjourney.
非常非常长的技术栈。

假设大家已经知道，从一段文字生成一张图片。
戴着一个帽子的猫。

37:00
描述 -> 图片。
生成视频的挑战。
视频，是连续的图片。
帧和帧是分开生成的，但是噪音很大。没办法保持稳定。

Sora的特征：3d卷积网络。
它不是一帧一帧切，还是16张切。

Square -> cube
X,y -> x,y,t
保证了在时间上的连续。不会有跳动。

刘润总结：
Space time patch. 时空的概念。时间上的连续性。

Unet模型：特征提取到最小，再一层一层还原。
它要求输入的图像，是大小一致的。
训练的时候，把图像都设置成512*512.

OpenAI:
Unet -> transformer.
输入的序列，长度是变长的。
不挑食，没有对视频进行压缩，裁剪。

对视频的很多确定性的要求，都去掉了。

Diffusion model -> Transformer model

Diffusion model:
文字怎么生成图片？

电子信号由于布朗运动，高斯噪音。不含任何信息的噪音。
噪音，随机数

一张图片，加一些噪音，加一些噪音，变成高斯白噪音。
预测，加了哪个噪音，生成了这样的图片。
赶紧调整它的参数。
从噪音，再如何回到图片。

52:50：
刘润总结：
Diffusion model: 扩散
一滴墨水，滴到玻璃杯。-> 扩散 -> 均匀的浅蓝色。
扩散
加噪音：是数据集，然后去训练。怎么减噪音，这个叫训练。
去噪音

把图变成白噪音，再用白噪音还原出图。

Sora: diffusion + transformer(google的论文写的)
30亿个参数，暴力美学。

高考的分数。很多题，是你的语文，数学，英语成绩。
单向的过程。

680分，你能帮我生成它的答卷的分数。
-刘老师，语文，数学超级好，化学
语文147, 数学：149, 化学：135. ……
那部分强，那部分弱，就可以

不了解原理，看成是哲学。

61:47 总结：
AI: 算法，算力，数据。
Diffusion + Transformer. 能够生成不受条件限制的视频。
大量的算法，30亿的参数。
很多显卡，电力，数据集。
给世界带来什么影响？影响什么行业。

忘了自己为什么有这份工作？
现在有的工作，是因为技术的发展，计算机的发展。

凡是我出身前的技术，都是世界的一部分；
凡是25岁以前的技术，都是改变人类的；25岁以后的技术，都是邪恶的。
完全来自自己所处的立场。

视频制作行业，大大的利好。

Sora的出现，当做是Adobe软件的一次大大的升级。

高抽象度，低抽象度
构思，段落，句子，写出来，钢笔写出来。

工程师一条线，建筑工人一身汗。
高抽象度，低抽象度。

所有人都是懒的。

凡是机器能干的工作，我们就尽量不干。不要和计算机吃醋。
影视行业：短视频，长视频行业。

哪些是低，哪些是高抽象度的。
剧务

浙江的绍兴，中国的横店，世界的义乌

今天插秧的人，明天不一定坐到总控室。
时代的进步：淘汰一部分，然后让另一部分成长起来。
替换。

个体的关怀：
下岗女工：退休
你帮我解释一下，为什么你之前每天辛勤的劳动，却只能换来一辆自行车；但现在却可以换来30辆自行车。
是因为你的努力，还是因为把你挤下岗的自动纺织机。

82:10
科技的进步：一切可以提高生产效率的，都叫科技。
整个社会的总财富增加，然后社会，国家，制度再通过一种分配机制，

美国：人工智能税。

财富增加，都会有自动分配的机制，不见得均匀分配。

我不想等社会的分配，我想抓住机会。

学习：上一代人，和我们这一代人，学的不一样。
微软学得很多，都没用了。

我们必须学会用promt, 跟大语言去交流。

影视行业的从业人员：
你已经是佼佼者了。本身就是一个爱学习的人。把它理解成，一个软件的升级版本。

忆苦思甜。
同样一份工作，越来越顺手。

学习的前提：不要闹脾气。
武僧遇到洋枪队。

武僧，跟洋枪较劲。

保持开放度和灵活性。
你的工作是，生成视频。而不是用工具。

90:00
未来人人都可以当导演。说明这个事情越来越难了。

人人都能做的话，我为什么要请你。

什么不会变？商业的本质，稀缺性，供给。

每次的技术变革，都是一次反思的机会。我们的工作还稀缺吗？

有的职业：是因为人人都能做，所以消失了。电梯操作员，售票员等；
有的职业：所有人的水平都提升，这个行业会变大。

程序员：汇编 -> 高级语言
20万 -> 1000万 -> 5亿
基数变大，越来越不稀缺了。
需求越大了。

比起20年，跟计算机无关的工作，都跟计算机有关了。

电视的带宽：带宽增加，网站变得更快。
4k, 8k, ……

效率的提升，不是简单的提升。是指数级的提升。

程序员，带宽，激发了本来增长的需求。在更大的赛道上。

选择职业：孩子应该学什么？
凡是受到chatgpt冲击的行业，必将走向繁荣，一定要冲进去。
凡是没有受到，躲得远远的。

程序员：前端 framework.
Vue, react.
活变得越来越多。

婚礼：后面生成一个视频。
井喷一样的需求增长。
视频生成。大量的需求，会井喷式发展。

四大的审计师，理发师。

视频制作员，不一定服务电影，可以服务抖音，tiktok.

去年讨论的时候，还是文本生成，是不是记者不需要了。

个人的建议：
对编程感兴趣，一定要学。

人生收益：三四年级，学了计算机。
娃娃，被抓去学电脑。
计算机，第一堂课，26个字母。

小学，中学，大学学得，都没用。
带你进了计算机这个赛道。

让自己的孩子，保持在主航道。
人工智能主航道。

医学：计算机辅助蛋白质。
并没有改变，医生看病的工作。只是工具在变。

8年之后还会出现什么，无法预测。

编程，数学，主航道，跟人工智能对话的技术。

人工智能，开到汽车，开到生命科学，保持在主航道。

=========================================
中国300个大模型。
距离Sora到底有多远？

1> 悲观
Gap,
Gpt3 , 3.5, 4.
2> 乐观
百姓AI: 做应用层的。
大模型的能力，和国内的需求联系在一起。

116:20 只要我们的模型在一直往前走，
只要大语言模型，跨过了需求的这个线，对国家

超过chatgpt是争鸣，超过需求，是争利。

2023年底，能达到chatgpt3.5.
不是唯一重要的事。
只要能超过某个点，对于国家就是好的，利于财富的增长。

286,386,486，
科技的发展，一定会放缓。中国的追赶，是有时间窗口的。

OpenAI:
验证了这条道路是可以走通的。

丝绸，瓷器。蒸汽机，电力。

我们到底能多快的？系统性的优势。

芯片的问题,Nvidia, 高端芯片对于中国是禁用的。

从应用的角度，中国

我们的芯片有差距，技术有差距，算力有差距。
材料在美国率先研究出来，武器率先研究出来。会加大落差。
生物技术，疾病，确实很令人担心。

126:00
它到底发生得多快？
Sora, 是否真得理解了这个世界？理解了世界模型。

Sora, 看起来理解了世界。
你认为我理解了这个世界？

从黑盒看来，它已经有了意识。
让我们相信，它已经有了意识。

AGI: 等同于聪明。
Moving target. 我们永远达不到AGI.

香农，图灵测试。永远都达不到

我们现在的生活，是几十年前的天堂。
但我们会认为不是天堂。

中国什么时候会做出sora?

近期一两年出现sora,

Chatgpt 3.0的影响。
Sora不做，是因为不知道这条路是否能走下去。

路线被证明是对的，不同公司通过不同路径的追赶。

《千脑智能》，后半部分预测错了。
世界模型：记忆和预测。
预测了一个台阶，结果踩空。
记忆模型 -> 预测 -> 记忆

Elon musk: GG人类。

135:00
中国在做基础模型的研究，太耗资源。算力。
应用型的研究。

全名去淘金。
互联网：netscape出来，网站，商业模式，付费，物流
花了10年，才真正的应用起来。

大语言模型：拿着锤子找钉子。商业论坛。

商业变革：都是

火：不是为了吃肉，而找火。

不是特别短的过程。

应用，会像散点一样的应用。

2000年，觉得互联网很厉害。.com泡沫

离信息高速公路有多远，过海100米。

新浪：吃的传统业务的红利。

94年底，互联网进入中国。

凡是会被我们想到的，10年内可以实现。
从想到，和能做到，10~20年作业。

98年，做B2C电子商务。

想象的过早，政策可能会过早。

用户可能还没有ready, 还没有准备好。七龙珠，AI只是其中的一颗龙珠。

很多人，都在找商业模式。
妙鸭相机。

尝鲜性的应用。

当下能看到的机遇：
工具（手电筒），下载软件(fomail),

Iphone里面的原生应用：
Google, 美团，打车
AI里面的原生应用：naïve app.
Agent, 智能体（秘书，满世界帮忙）

企业里面：
初级工作，容错性高的职位，越早的，可能会被取代；

律师，医疗，自动驾驶，一直处于辅助的工作。
自动驾驶，很难取代。

Sora, chagpt, 人也会犯错。

春晚，约瑟夫环。
Chatgpt,写了一个约瑟夫环。
Chatgpt, 代码已经写出来了，但是结果会出错。

做精密度非常高的工作，无法完全信任它。
你不知道，chatgpt的那句话会犯错，哪里埋了一个雷。
我可能会犯错。

152:00
人类不知道，chatgpt,sora,为什么有智能。
不知道的事情，无法控制。

涌现：到底为什么会有？
Sam: 我们也不知道它为什么会有智能。

人的智能，神经元的聚集涌现出来的。

围棋，智能，情感，意识, ……
更大规模的神经元，涌现出来的。

Chatgpt, 没有情感，没有意识。
和人类的表现越来越像。

恍恍惚惚的明意识，潜意识。

树突，训练好的，潜意识。
明意识，

这个世界，也不是真实存在的。

大脑，泡在液体里面的一坨肉。

智能大概有三件事情：感知 – 智能 – 行动。
Chatgpt: 感知，判断，行动。

视频感知世界 – chagpt – sora.

全世界的公共摄像头，都接入sora, 给装上手脚。

具生：具有行动力了。

看世界，就可以理解了。

小孩子，不会动的时候，很危险。等他能动的时候，就危险了。

《终结者》，天网：

车在英国出现的时候，大家很害怕。想的还是，世界上都是广场上走的妇女儿童。刚看到车的时候，想不到有公路。

技术，保证它的安全，保证它的安全。
电越来越重要，特别多的措施，保证它不会出错。

AI, 交给坏人，很可怕。
好人，要保证坏人不能做破坏。
不是自然发生，需要很多努力才能做到。

人工智能，和之前的很多技术都不一样。
汽车，是被动的，人不动，它就不会动。
人工智能，如果有了独立意识，
——三大定律，不能伤害人类。

人工智能，和人的价值观，完全对齐。

和平，是在整个冲突中达到的。
数字货币，核弹。

核弹，掌握在坏人手中，很危险。它掌握在国家，没有掌握在坏人。

核弹，获得原材料很难。技术已经能达到。

对中国可以改变的机会？

对AI ,只能卖课吗？

有什么建议？
科技的发展，还是在加速。
保持开放，不要紧张。保持学习。
海面上的船，海面上升

人，保持懒惰。
有洗衣机的时候，绝对不手洗。

Sora能生成的，就用sora.

恐慌，对抗的情绪，都不必要。

技术的周期：
1700年,
第一次工业革命：GDP的增速，人均GDP,疯狂增长。
第二次工业革命：
…

全球经济，降速。
互联网和技术革命，已经普惠了。
年轻人在抱怨，似乎没有什么机会了。
你们那个年代，一努力，就会有机会。

这波机会来了，
未来的app.

一代人有一代人的机会。
非常好的机会，

很羡慕这一代的大学生。

进入一个行业的时候，正好是一个行业的兴起。

技术的发展，不是匀速的。

23,24年，就是这个世界。
带来前所未有的方式。确定的是一个机遇。

标签：人工智能

本文转载自: https://blog.csdn.net/inter_peng/article/details/136253248
版权归原作者 inter_peng 所有，如有侵权，请联系我们删除。

[人工智能-sora] Sora的到来，到底意味着什么? 访谈摘要

1. 前言

2. 访谈摘要

发表评论

“[人工智能-sora] Sora的到来，到底意味着什么? 访谈摘要”的评论:

关于作者

overfit同步小助手

相关阅读

文章导航