数据可能是大模型驱动下,最先走向商业落地的领域之一。过去一个月,不少行业人士认为,随着算力成本的降低、开源模型的进步、以及模型部署服务的渗透,数据可能是软件公司利用大模型做出差异化,最重要的因素。
数据库领域的领头羊 Snowflake 和 Databricks 均在各自的大会上,描绘了大模型+数据的理想前景——现在由数据工程师和数据科学家才能取数、用数的场景,未来人人可得。
尽管实现这一图景还需要很多技术、工程、场景上的探索,但数据是大模型时代绝对的主角。相应地,承载数据调度的数据库也会迎来新一轮变革。
日前,国内数据库厂商 PingCAP 在用户峰会上,分享了关于 AI 时代数据库的新思考。
「如果为全世界所有的开发者提供一个免费的数据库,那数据库架构应该是什么样的?」
五年前,PingCAP 的两位联合创始人刘奇和黄东旭的结论是:「这起码要是个云原生的架构,否则没有办法应对不同用户各种各样的弹性、各种各样的需求。」
现在,黄东旭表示,「这个经典架构搬到云上想要支撑这个需求,PingCAP 得赔死了。」当 AI 正在改写软件行业时,PingCAP 推出了新一代架构的数据库——TiDB Serverless。
刘奇认为,TiDB Serverless 从架构上更系统地做到 AI ready,当「算算分离、存存分离、存算分离,这个时候非常容易引入 AI」。
AI 时代的数据库架构
作为软件公司,刘奇对这波「AI 重塑软件」有两个直接体感——一个是代码,还有一个是数据。
峰会上,他用一个「惊人」的数字来阐述 AI 变革——过去七个月,GitHub 上新增的原代码已经有超过 46% 由 AI 生成。「也就是说,如果从软件开发效率的角度去看,AI 已经完成了差不多一半的人类的工作,这是短短过去七个月的时间发生的事情」。
在 AI 时代到来之前,要先编程把各种各样的辅助工具编出来,再运行。但在今天,没有写一行代码,只提了个要求,就有结果了。数据消费的门槛变得极低,可以预见,数据将呈十倍、百倍规模的增长,这会对数据库带来巨大的挑战。
刘奇在峰会上分享数据库领域的变化 | 图片来源:PingCAP
对此,PingCAP 创始人兼 CEO 刘奇认为,团队于四年前开始预研、到现在正式商用的 TiDB Serverless 数据库,可以从架构上满足 AI 带来的新需求。
TiDB Serverless 数据库架构简化了应用的开发,让客户不必再花时间在数据库上,把复杂的事情交给 PingCAP 的系统自动化处理,而把自己的时间精力投资在业务创新上。过去,PingCAP 从解决 MySQL 分库分表问题,到 HTAP 架构、云原生,再到 TiDB Serverless 数据库,都是这一理念的延伸。
PingCAP 联合创始人兼 CTO 黄东旭,在峰会的「年度保留节目」——「下一代数据库」主题演讲上进一步拆解了 TiDB Serverless 数据库的由来。
他认为,无论技术世界如何变化,稳定性、性能、高可用、易用性与工具生态,永远都是用户对数据库的重要关注点。并且,下一代数据库还面临着新的要求和挑战:
- 除了极致的性能支持海量数据外,性能的可预测性成为关注焦点;
- 线性开发体验,数据库扩缩容对应用透明;
- 高效的成本控制,可以零成本起步(Scale-to-Zero);
- 多租户支持成为新常态,不仅要实现隔离,还要实现数据的共享。
为此,在重新设计 TiDB Serverless 的时候,PingCAP 定下了一个规范:「我们应该做的是数据库的服务化,而不是服务化的数据库。」
黄东旭介绍,8 年前一开始设计 TiDB 数据库时,他看到的东西就是一台台具体的服务器、CPU、内存、磁盘,基于这些东西来构造 TiDB,但是现在到 Serverless 版本的数据库,重新再去设计系统时,他看到的已经不是这些 CPU、磁盘、服务器,而是云上的服务,EC2 虚拟机、对象存储、甚至是云厂商的 RDS(关系型数据库)——他想在新的云原生的工程哲学里充分利用云的基础设施,这也是 TiDB Serverless 能把成本推到当前的极限水平的核心原因。
掀开最新一代数据库 TiDB Serverless 的引擎盖,里面大概有三个新的东西:
- 换了新的云原生的引擎 CSE(Cloud-native Storage Engine)架构;
- 在 TiDB 引入了逻辑上的 Key Space;
- Resource Control 以及 RU 的概念,从上到下做全局流控。从而实现了无需资源规划、秒级启动、0 元起步、按使用付费、极致弹性的数据库服务。
过去几个月的时间里,TiDB Serverless beta 版已经拥有超过 1 万个活跃的集群。
小模型服务企业场景
PingCAP 副总裁刘松认为,数据库正经历着从云原生数据库到 Serverless 数据库,再到拥抱 AI,将 AI 与数据库进行融合的大方向。TiDB Serverless 数据库作为 PingCAP 全新一代的架构,可以和 HTAP、AI 融合,成为三位一体的创新。
这些技术融合之后,下一步要看 AI 和数据库融合怎么才能提升数据库的处理能力、分析能力。
对于 AI 对数据库带来的变革,刘奇认为,AI 跟数据库应用的结合有更多的层面。最广为熟知的场景是用自然语言与数据库交互,就自动完成了数据分析的工作。
但是,还有其他中间和底层的环节,并且这些环节很多时候跟大模型无关。比如,可以用数据训练一个小 AI 模型,来预测用户 workload(工作负载)的变化,用户会感觉:数据好像本来就在这,分析速度非常快。他说:「之前跑的一个 workload,我们现在快了几十倍,结果看起来也是对的,突然有这么大的改变,会让人觉得难以置信」。
小模型正在发挥着超出预期的价值,这似乎有点反常。事实上,自 ChatGPT 以来,让 B 端企业用户再次为AI惊喜的是大模型的通用能力,可以解决根据小模型一个场景一个场景训练的「项目制」工程。
对于小模型的通用性,刘奇认为,当训练参数达到 120 亿、160 亿的时候,模型的知识丰富度已经很高了。而且,过去一段时间,小模型训练也很充分,起步的训练量在 1TB 的 Token,这样训练出来的结果至少是高中大学生的水平,再进到不同的行业做一些专有训练,其实也具备比较强的通用性。但调用 OpenAI 的 API,特别是 GPT-4 非常贵,以现在的成本没有办法做到人人可用。
另外,模型怎么跟互联网结合,让它能变得更加通用,现在这一技术也相对比较成熟。
比如要完成一个任务,允许模型使用工具(包括上网搜索关键词),经过几次的反复也能完成工作。「大模型也许不必装那么多知识,关键是推理能力到什么程度,剩下的可以依据推理能力把任务完成。」小模型推理能力的进步,是衡量可用性的重要因素。
他认为,有一些目前还没有开源、训练量没那么大,已经证明了推理能力可以显著改变,甚至可以超过 GPT-3.5。尽管不是全领域,是在某一方面,或者某几方面已经做到了。
更重要的是,用企业安全合规的标准来运维,小模型往往是更好的选择,它会更加专用。「如果把 AI 植入到各个环节,很多地方的应用都是专用的小的模型,它的速度需要很快做出预测;同时需要考虑到用户本身数据的安全合规,用户也不允许你把数据发出去给一个大模型,我的数据必须在我自己的地方」。
对于外界关心的 PingCAP 会接入哪家大模型,刘奇再次强调了小模型,尤其是开源小模型的价值。他说,如果超过千亿的参数是大模型,那么现在有大量数百亿参数的小模型进步速度非常快,超出了所有人的预期。
「当初谁也没有想到能够在短短的半年时间就有模型敢出来和 OpenAI 叫板,小模型想达到相对接近的能力需要多少年,现在我们发现至少有非常强的信心,一年之内就可以看到开源的小模型能够做到这一点,同时能更好的满足用户对于数据的要求,因为你数据不用出我们的服务,就能做到端到端的合规。」
从「算算分离、存存分离、存算分离」的 TiDB Serverless 架构,再到小模型的选择,PingCap 做出了实践其 AI 时代数据库服务商转型的重要一步。当数据量成倍增长时,「服务化+数据库」的逻辑,显然已经成为数据平台们的共识。
版权归原作者 极客公园 所有, 如有侵权,请联系我们删除。