自生成式AI革命开启以来,研究正推动该领域从"快速思考(即迅速给出预训练的回应)",向“缓慢思考(即在推理[inference]过程中进行逻辑推理[reasonging])”转变。这一转变正在开启一系列全新的智能应用。
生成式AI市场的基础层正趋于稳定,处于一种由一批关键的大型企业及企业联盟构成的均衡状态,其中包括Microsoft/OpenAI、AWS/Anthropic、Meta以及Google/ DeepMind。只有拥有强大经济实力并能获取巨额资金的大型企业仍在竞争中。尽管竞争远未结束(并且在以一种博弈论的方式不断升级),但市场结构本身正在固化,而且显然未来AI预测模型也会变得越来越广泛且成本更低。
随着大语言模型(LLM)市场结构渐趋稳定,新的前沿领域正崭露头角。当前的焦点正转移到逻辑推理层的开发与拓展上,在这一领域,“系统2”思维占据着主导地位。受诸如AlphaGo之类模型的启发,该层面旨在使人工智能系统在推理时(inference)具备审慎的逻辑推理、问题解决以及认知操作能力,而非仅仅局限于快速的模式匹配。全新的认知架构和用户界面正在塑造这些逻辑推理能力向用户传递以及与用户交互的方式。
这一切对人工智能市场的创业者来说意味着什么?对现有的软件公司又意味着什么?作为投资者,在生成式AI堆栈中的哪个层面最有可能带来回报?
在红杉资本发布的最新文章中,本文作者将探讨基础大语言模型层的整合是如何为扩展这些高阶逻辑推理和自主能力的竞争奠定基础的,并讨论具有新型认知架构和用户界面的新一代“杀手级应用”。
(本文由OneFlow编译发布,转载请联系授权。原文:https://www.sequoiacap.com/article/generative-ais-act-o1/)
*作者 | SONYA HUANG & PAT GRADY
翻译|林心宇*
OneFlow编译
题图由SiliconCloud平台生成****
1
永恒的“草莓”模型
2024年,最重要的模型更新当属OpenAI的o1,它之前被称为Q*,也被称为“草莓”。这一更新不仅再度奠定了OpenAI在模型质量排行榜的榜首地位,而且对现有架构有显著改进。更具体地说,这是第一个具有真正通用逻辑推理能力的模型,他们通过推理时计算(inference-time compute)实现了这一点。
这意味着什么?预训练模型在大量数据上进行下一个词元预测,它们依赖于“训练时计算(training-time compute)”。随着预训练模型规模的不断扩大,出现了一种新的特性,即具备一定的基本逻辑推理能力,但这种逻辑推理非常有限。如果能让模型更直接地进行逻辑推理,情况会怎样呢?这基本上就是“草莓”模型所呈现的状况。当我们提及“推理时计算(inference-time compute)”时,意思是让模型在给出回应前先停下来思考,这就要求在推理过程中进行更多的计算(因此称为“推理时计算”),而“停下来思考”这部分就属于逻辑推理。
2
AlphaGo与LLM结合
那么,当模型停下来思考时,它在做什么呢?
首先,让我们快速回顾一下2016年3月在首尔发生的事情。深度学习历史上最具开创性的时刻之一就发生在这里:AlphaGo与传奇围棋大师李世石的比赛。这不仅仅是一场普通的人工智能与人类的对决——这是世界见证人工智能不再仅仅局限于模仿模式的时刻,它开始展现出思考的能力。
AlphaGo与之前像DeepBlue这样的游戏人工智能系统有什么不同呢?和大语言模型一样,AlphaGo首先通过对大约3000万步以往比赛棋步的数据库(还有更多来自自我对弈的数据)进行学习来模仿人类专家。但是,AlphaGo并不是从预训练模型中直接给出本能反应,而是会花时间停下来思考。在推理时,该模型会对大量潜在的未来场景进行搜索或模拟,对这些场景进行评分,然后给出具有最高预期价值的场景(或答案)作为回应。给予AlphaGo的时间越多,它的表现就越好。如果没有推理时计算,该模型无法战胜最优秀的人类棋手。但随着推理时间的增加,AlphaGo变得越来越强——直到它超越了最顶尖的人类棋手。
让我们回到大语言模型的世界。在这里,复制AlphaGo的难点在于构建价值函数,也就是对回答进行评分的函数。如果你在下围棋,这就比较直接:你可以一直模拟棋局直到结束,看看谁赢了,然后计算下一步棋的预期价值。如果你在编写代码,这也在一定程度上比较直接:你可以测试代码看它是否有效。但是,你如何给一篇文章的初稿、旅行行程或者一份长文档中关键术语的总结进行评分?这就是为什么用当前的方法进行逻辑推理很困难,这也是为什么“草莓”模型在接近逻辑的领域(例如编码、数学、科学)相对较强,而在更开放和非结构化的领域(例如写作)则没有那么强。
虽然“草莓”模型的实际实现方式是严格保密的,但关键理念涉及围绕该模型生成的思维链进行强化学习。对模型思维链的审查表明,一些既基础又令人兴奋的事情发生了,它实际上类似于人类的思考和逻辑推理方式。例如,o1表现出当它陷入困境时回溯的能力,这是推理时间扩展的一个新兴特性。它还表现出像人类一样思考问题的能力(例如,通过想象球体上的点来解决几何问题),以及以新的方式思考问题的能力(例如,以人类不会采用的方式解决编程竞赛中的问题)。
而且,在研究团队努力提高模型逻辑推理能力的过程中,他们正在探索诸多推动推理时计算的新想法(例如计算奖励函数的新方法、缩小生成器与验证器差距的新方法)。换句话说,深度强化学习再次变得热门起来(https://x.com/polynoamial/status/1835007765213016208),它正在促成一个全新的逻辑推理层。
3
系统1思维 vs 系统2思维
从预训练的本能反应(“系统1”)到更深入、审慎的逻辑推理(“系统2”)的这一飞跃,是人工智能的下一个前沿领域。对于模型来说,仅仅知道事物是不够的——它们需要停下来进行评估,并在实时决策中进行逻辑推理。
可以把预训练看作是系统1层。无论一个模型是在围棋的数百万步棋法(AlphaGo)上进行预训练,还是在互联网规模的海量文本(大语言模型)上进行预训练,它的任务都是模仿模式——无论是在人类的游戏玩法还是语言方面。但是,模仿尽管很强大,却并非真正的逻辑推理。它无法正确地通过复杂的新情况进行思考,尤其是那些样本外的情况。
这就是系统2思维的用武之地,它也是人工智能研究最新浪潮的焦点。当一个模型“停下来思考”时,它不仅仅是在生成已学习的模式或依据过去的数据做出预测,它是在生成一系列可能性,考虑潜在结果,并基于逻辑推理做出决策。
对于许多任务而言,系统1就已足够。正如Noam Brown在我们最新一期的“Training Data"节目(https://www.sequoiacap.com/podcast/training - data - noam - brown/)中所提到的,对于“不丹的首都是什么”这类问题,长时间思考并无益处——你要么知道答案,要么不知道。在这种情况下,基于模式的快速回忆完全适用。
但是当我们面对更复杂的问题——比如数学或生物学上的突破——快速、本能的反应是不够的。这些突破需要深入思考、创造性地解决问题,并且最重要的是需要时间。人工智能也是如此。为了解决最具挑战性、最有意义的问题,人工智能需要超越快速的样本内反应,花时间进行那种能够推动人类进步的深思熟虑的逻辑推理。
4
新的规模扩展定律:推理竞赛已经开启
o1论文(https://openai.com/index/learning-to-reason-with-llms/)中最重要的见解是,出现了一条新的规模扩展定律。
预训练大语言模型遵循一个广为人知的规模扩展定律(https://arxiv.org/abs/2001.08361):在预训练模型上花费的计算资源和数据越多,模型的表现就越好。
o1论文为计算扩展开辟了一个全新的层面:给予模型的推理时(或“测试时”)计算资源越多,它的逻辑推理能力就越强。
来源:OpenAI o1技术报告
当模型能够思考数小时、数天、数十年时,会发生什么呢?我们会解决黎曼猜想吗?我们会回答阿西莫夫的最后的问题吗(“宇宙的熵可以逆转吗?”)?
这种转变将把我们从大规模预训练集群的世界推向推理云的领域——即能够根据任务的复杂性动态扩展计算的环境。
5
一个模型统治一切?
随着OpenAI、Anthropic、Google和Meta扩展它们的逻辑推理层,并开发出越来越强大的逻辑推理机器,会发生什么呢?我们会有一个能统治一切的模型吗?
在生成式AI市场伊始,有一种假设认为,如果一家单一的模型公司变得强大并无所不包,那么它会吞并所有其他应用程序。到目前为止,这个预测从以下两个方面来说都是错误的。
首先,在模型层有大量的竞争,在最先进技术能力方面不断相互超越。有可能有人通过广泛领域的自我对弈实现持续的自我改进并取得突破,但目前我们还没有看到这方面的证据。相反,模型层竞争激烈,自上次开发日以来,GPT-4的每个词元价格已经下降了98%。
其次,除了ChatGPT这一显著的例外,这些模型在很大程度上未能作为突破性产品进入应用层。现实世界是复杂的,在每个垂直领域中,顶尖的研究人员也不愿了解其中每种功能的端到端工作流程的细节。对他们来说,停留在应用程序编程接口(API)层面既具有吸引力,在经济上也合理,接下来,现实世界的复杂性就该交由开发者群体去操心了。这对应用层来说是个好消息。
6
复杂的现实世界:定制认知架构
作为一名科学家,你为达成目标而规划及执行行动的方式,与作为软件工程师的工作方式大相径庭。而且,即便都是软件工程师,在不同公司工作也会有所差异。
在研究实验室进一步拓展横向通用逻辑推理的边界之时,我们仍然需要应用特定或领域特定的逻辑推理来打造有用的AI智能体。纷繁复杂的现实世界需要大量针对特定领域和应用的逻辑推理,而这些逻辑推理无法高效地编码进通用模型之中。
这里引进了“认知架构”的概念(https://blog.langchain.dev/what-is-a-cognitive-architecture/),认知架构是指系统思考的方式:代码和模型交互的流程,它接收用户输入并执行操作或生成响应。
例如,以Factory为例,他们的每个“机器人”产品都有一个定制的认知架构,该架构模仿人类思考的方式来解决特定任务,比如审查PR,或者编写并执行迁移计划,以便将服务从一个后端迁移到另一个后端。Factory机器人会分解所有依赖项,提出相关的代码更改建议,添加单元测试,并邀请人类进行审查。然后在批准之后,如果所有测试都通过,它会在开发环境中的所有文件上运行更改并合并代码。就像人类可能会做的那样——分解为一系列离散的任务,而不是给出一个通用的、黑箱式的答案。
7
应用层的现状如何?
想象一下,你想在人工智能领域开展业务。你会瞄准技术栈的哪一层呢?你想在基础设施层面竞争吗?想要击败英伟达和超大规模企业,那祝你好运。你想在模型层面竞争吗?想要击败OpenAI和马克・扎克伯格,也祝你好运。你想在应用程序层面竞争吗?想要击败企业信息技术部门和全球系统集成商,同样祝你好运。哦,似乎这听起来还是有点可行的!
基础模型充满神奇之处,但同时也十分复杂。主流企业难以应对黑箱问题、模型幻觉现象以及笨拙的工作流程。消费者面对空白的提示框,往往不知该提出什么问题。这些情况都为应用层带来了机遇。
两年前,许多应用层公司被嘲笑为“只是GPT-3之上的一个套壳应用”。而如今,这些套壳被证明是构建持久价值的为数不多的可靠方法之一。最初的“套壳”已经演变成了“认知架构”。
应用层人工智能公司不仅仅是基础模型之上的用户界面。事实远非如此,它们拥有复杂的认知架构,通常包括多个基础模型,上面有某种路由机制,用于检索增强生成(RAG)的向量和/或图数据库,确保合规的防护机制,以及模仿人类通过工作流程进行逻辑推理的应用逻辑。
8
服务即软件
云计算的转变体现为软件即服务(SaaS),即软件公司从传统模式转变为云服务提供商,这带来了价值3500亿美元的机遇。
得益于智能体逻辑推理(agentic reasoning,指人工智能系统具备像智能体一样进行推理和决策的能力),人工智能开始向“服务即软件”(https://x.com/bhalligan/status/1781323169313222852)方向转变。软件公司通过某种方式将劳动力所具备的知识、技能和工作流程等转化为软件。这意味着软件公司所面对的可触及市场并非仅仅是软件市场,而是规模更为庞大的、价值数万亿美元的服务市场。
销售工作成果意味着什么呢?Sierra就是一个很好的例子。B2C公司将Sierra应用放在其网站上与客户交流。其要完成的工作是解决客户问题。Sierra按解决问题的数量获得报酬。这里不存在“用户数量”这样的说法。你有工作要完成,Sierra来做,然后它相应地获得报酬。
这对于许多人工智能公司而言是正确的发展方向。Sierra的优势在于它有一种出色的应对失败情况的方式,那就是当它无法处理某些问题时,可以将问题转交给人工客服来解决。然而,并非所有公司都有这样的好运。一种新兴的模式是,先以“副驾驶”的角色(即人类参与工作流程)进行部署,通过这些操作来争取获得以“自动驾驶”的角色(即无需人类参与)进行部署的机会。在这个过程中,人工智能系统逐渐掌握处理各种情况的能力,减少对人类的依赖。GitHub Copilot就是这方面的一个很好的例证。
9
新一代智能体应用
随着生成式AI逻辑推理能力的初步发展,一类新的智能体应用开始出现。
这些应用层公司呈现出何种形态呢?实际上,这些公司与传统的云计算公司有所不同:
- 云计算公司瞄准的是软件利润池。而人工智能公司瞄准的是服务利润池。
- 云计算公司销售软件(按“用户数量”收费)。人工智能公司销售工作成果(按“成果”收费)。
- 云计算公司倾向于自下而上发展,采用无摩擦分销(即通过便捷的网络渠道、简单的用户获取方式等,让用户能够轻松地接触和使用云计算服务,减少诸如复杂的销售流程、技术门槛等可能带来的阻碍)。而人工智能公司越来越多地采用自上而下的方式,采用高接触、高信任的交付模式。
我们看到,在知识经济的各个领域,新一代智能应用正在涌现。以下是一些例子。
- Harvey:AI律师
- Glean:AI工作助手
- Factory:AI软件工程师
- Abridge:AI医疗文书助手
- XBOW:AI渗透测试员
- Sierra:AI客服智能体
通过将提供这些服务的边际成本降低——与推理成本的大幅下降相一致——这些智能体应用正在扩张并创造新的市场。
以XBOW为例。XBOW正在开发一款AI“渗透测试员”。“渗透测试”(pentest或penetration test)是公司对计算机系统进行的模拟网络攻击,目的是评估自身的安全系统。在生成式AI出现之前,公司只在有限的情况下(例如,为满足合规要求时)才聘请渗透测试员,因为人工渗透测试成本很高:这是一项由高技能人员执行的手动任务。然而,XBOW现在展示的是基于最新的逻辑推理大语言模型构建的自动化渗透测试,其性能可与最熟练的人工渗透测试员相媲美。这使得渗透测试市场规模成倍增长,并为各种规模的公司开启了持续进行渗透测试的可能性。
10
这对SaaS领域意味着什么?
今年早些时候,我们与有限合伙人会面。他们提出的首要问题是:“人工智能的转变会冲击你们现有的云计算公司吗?”
我们最初坚定地认为“不会”。初创公司与现有企业之间的竞争就像一场赛马,前者致力于构建市场渠道,而后者专注于打造产品。拥有创新产品的年轻公司能否在拥有客户资源的现有企业推出类似产品之前争取到大量客户呢?鉴于人工智能的诸多神奇之处都源自基础模型,我们默认的设想是:不会冲击现有的云计算公司,因为这些基础模型对现有企业和初创公司来说同样可得,而且现有企业在数据和市场渠道方面具有先发优势。初创公司的主要机会并非取代现有的软件公司,而是瞄准可自动化的工作领域。
话虽如此,我们现在不再那么确定了。参考前面关于认知架构的内容。要将模型的原始能力转化为有吸引力、可靠的端到端商业解决方案,需要大量的工程工作。如果我们大大低估了“原生AI”的意义,那会怎样呢?
二十年前,本地部署软件公司对SaaS的理念嗤之以鼻。“这有什么大不了的?我们也能运行自己的服务器,并通过互联网提供服务!” 当然,从概念上讲,这很简单。但随后却是商业模式的全面重塑。产品开发从瀑布式流程和产品需求文档(PRD)转向敏捷开发和A/B测试。市场推广从自上而下的企业销售转向自下而上的产品驱动增长(PLG)和产品分析。商业模式从高平均销售价格(ASPs)和维护费转向高净收入留存率(NDRs)和基于使用量的定价。很少有本地部署软件公司成功转型。
如果人工智能带来的是类似的转变,那会怎样呢?人工智能的机会是否既在于销售工作成果,又在于取代软件呢?
通过Day.ai,我们已经看到了未来的一丝曙光。Day是一款原生AI客户关系管理(CRM)系统。系统集成商通过配置Salesforce以满足客户需求而赚取数十亿美元。而Day仅通过访问你的电子邮件、日历以及一份一页问卷的答案,就能自动生成完全贴合你业务需求的CRM系统。它(目前)还没有很多花哨的功能,不过,其无需人工输入就能自动生成并保持更新的神奇之处,使得人们开始转而使用这款CRM系统。
11
投资领域
作为投资者,我们把精力投放在哪些方面?资金又投向了何处?以下是我们的简要看法。
基础设施
这是超大规模企业的领域。它是由博弈论行为而非微观经济学驱动的。对风险投资家来说,这并非理想的投资领域。
模型
这是超大规模企业与金融投资者的领域。超大规模企业正通过调整资产负债表来追求利润表的增长,他们投入的资金最终会以计算业务收入的形式回流到其云业务当中。金融投资者受到人工智能领域令人惊叹的科学成果(如先进的模型表现)的影响,在投资决策上出现了较大变化。这些模型令人称奇,背后的团队也给人留下深刻印象。在这种情况下,微观经济学的考量被暂时搁置一旁。
开发工具和基础设施软件
战略投资者对此并没有多少兴趣,但对风险投资者而言,这具有较大的吸引力。在云计算转型期间,这一层面诞生了约15家收入超过10亿美元的公司,我们猜测在人工智能领域也可能如此。
应用程序
对风险投资来说,这是最有趣的层面。在云计算转型期间,诞生了约20家收入超过10亿美元的应用层公司,在移动互联网转型期间也诞生了约20家,我们猜测在人工智能领域也会如此。
12
总结
在生成式AI的下一个阶段,我们预计,逻辑推理研发的影响将波及应用层。这些影响迅速且深刻。到目前为止,大多数认知架构都融入了巧妙的“解绑(unhobbling)”技术;随着这些能力正更深入地融入模型本身,我们预计,智能体应用将很快变得更加复杂和强大。
回到研究实验室,在可预见的未来,逻辑推理和推理时计算仍将是一个重要主题。既然我们有了新的规模扩展定律,下一场竞赛已经开始。但对于任何给定的领域,收集真实世界的数据并编码特定领域和应用的认知架构仍然困难。这也是“最后一公里”的应用程序提供商在解决现实世界中各种混乱问题方面可能占据优势的地方。
展望未来,像Factory的机器人这样的多智能体系统可能会开始普及,成为模拟逻辑推理和社会学习过程的方式。一旦我们能够开展工作,我们就可以让工作团队完成更多的任务。
我们都在热切期待生成式AI的“第37步行动”,就像AlphaGo与李世石的第二场比赛中那样,通用人工智能系统展现出超乎常人的表现,令我们惊叹不已,给人一种仿佛它在独立思考的感觉。这并不意味着人工智能“觉醒”了(AlphaGo并没有觉醒),而是我们模拟了感知、逻辑推理和行动的过程,使得人工智能能以真正新颖和有用的方式进行探索。这实际上很可能就是通用人工智能(AGI)。如果确实如此,那么它并非孤立的个例,而仅仅是技术的下一个发展阶段。
其他人都在看
- 大模型成本效益对比
- AI不是另一场“互联网泡沫”
- LLM量化效果评估:50万次实测后的发现
- 2美元/小时出租H100:GPU泡沫破灭前夜
- 10倍工程师编码工具:Cursor x SiliconCloud
- 超越SD3,比肩MJ v6,生图模型FLUX.1开源
- 最大的顶级数据集开源,HuggingFace排名第一
让超级产品开发者实现“Token自由”
邀请好友体验SiliconCloud,****狂送2000万Token/人
邀请越多,Token奖励越多
siliconflow.cn/zh-cn/siliconcloud
版权归原作者 OneFlow深度学习框架 所有, 如有侵权,请联系我们删除。