0


拿什么样的大数据来“喂饱”狂飙的大模型

554fa8fed37c09d674fe32a0ee6b8612.jpeg

817b9132a7e4ba81a71e77a5dabf5916.png

大数据产业创新服务媒体

——聚焦数据 · 改变商业


当前,大模型的发展处于一场充满无限可能的大变革前夜,而作为核心要素的大数据也被赋予了全新的意涵。大模型技术的出现对大数据而言意味着什么,大数据又将如何影响大模型的发展,这两者又如何能更好双向奔赴,带来新质生产力,进入2024年又会出现哪些技术的引爆点和杀手级应用?

带着萦绕在大模型与大数据之间的种种问题,在“第六届金猿季&魔方论坛——大数据产业发展论坛”上,数据猿高级主笔欧小刚作为圆桌论坛的主持人,与香港科技园公司董事,太平绅士,香港特区政府数字经济发展委员会委员车品觉、是石科技副总经理兼CIO侯建业、矩阵起源创始人兼CEO王龙、鸿翼联合创始人兼CTO罗永秀、维音中国副总裁熊伟展开深入讨论,群策群力为大模型与大数据融合发展建言献策。

大数据之于大模型,质量压倒一切

尽管大模型的表现足以让人们惊奇,但不得不承认的是,即便是强悍如ChatGPT,也经常会出现一本正经胡说八道的情形。大模型的忽智忽愚,深受大数据语料的影响,那么我们不禁要问,大数据到底如何影响大模型的发挥呢?

五位嘉宾共同认为数据的质量决定了大模型的质量。车品觉认为,对于大模型而言,大数据的“大”非万能。零散的数据不如真实、逻辑性强的数据有价值。而且到了一个临界点,喂再多零散的语料也不会对大模型的推理效果产生更多作用,高质量的数据可以起到“一语胜千言”之功效。

6ced7a049c42c6e2b4080e813ac74818.jpeg
香港科技园公司董事,太平绅士,香港特区政府数字经济发展委员会委员车品觉

王龙形象地指出,大模型的工作机制就好像是把一个高清图片压缩成一个32kb缩略图,从中找到数据排布的规律,然后按照规律去生成新的高清图。在构建大模型的过程中,大数据集的质量直接决定了模型的性能和预测准确度。构建一个实时、精准的闭环链路,使得数据的采集、处理、训练形成无缝衔接,是推动大模型发展的关键环节。

如果只是在“实验室”,数据质量的好坏可能只是影响模型效果的高低,无非是80分还是60分的区别。但在商业应用领域,只有可用和不可用这两种选项。

罗永秀表示:“大模型为智能文档管理带来的推动作用是不言而喻的。大模型刚一面世,鸿翼就尝试把将其运用在我们的ECM智能内容管理产品当中,但由于它对文档数据的收集、整理、分析和应用是一个持续且动态的优化过程,因此很难形成统一、标准的产品。而在知识管理领域,大模型则如鱼得水,进展飞速。这是因为知识管理蕴含了最严谨、逻辑性最强的知识,比如说产品操作手册,工艺的制作标准等直接决定企业经营生产的内容,对精准度要求极高,而且具备一定的组织规范。基于构建在行业知识库基础上的数据集,不管是进行向量化处理,还是高精度的微调,企业一旦接入大模型,必定为生产效率带来大幅度的提升。”

ea93b8ffaaa059ab4712b228839f371f.jpeg
鸿翼联合创始人兼CTO罗永秀

结合实际应用,熊伟认为:“大模型是语言模型,人类的语言体系比较完整和系统,能够为大模型提供足够充实的语料,因此大模型在理解和生成人类语言方面具有天然优势。我们所从事的客户服务领域是一站式、跨地域、多语言的,大模型能够帮助我们与全世界多个国家无障碍交流,充当智能助手的角色。”

当然,我们也必须清晰地指出,强调大数据“质”的重要性,并非是否定“量”的作用,大数据的质与量并非是对立的关系,两者相辅相成,更庞大的数据量与更高的数据质量,共同决定了模型的质量和性能。

大模型为大数据带来新内涵

过去十年间,互联网的快速发展为大模型的崛起奠定了数据基础,沉淀下来一批极为有价值的数据资产。在过去要进行有效的数据挖掘,不仅要付出巨大的专家成本, 还需要历经数据釆集、大数据预处理、数据标记等一系列烦琐的程序,导致大量的数据无法发挥其价值,成为了“沉睡的金矿”。大模型的出现为大数据带来了全新的气象,同时也对数据库、数据平台等数据基础设施提出了新的要求和考验。

侯建业指出,“在大模型诞生以前,需要处理100T或者PB级数据的场景应用很少,只有类似于气象,生物医药的科研项目才需要如此庞大的数据量。而大模型则让巨量数据的分析应用飞入了寻常百姓家,几乎所有行业都可以用。很多从事大模型研发的企业,动辄就是千亿百亿的参数规模。在上一个信息化发展阶段,产业界嘴边常挂着的是带宽、访问量、存储量这样的词汇,而在新的发展阶段,模型、算力、显卡则成为了热点话题,这是一个新时代的韵脚。”

22fe489731be52c1f0947f63026bbed0.jpeg
是石科技副总经理兼CIO侯建业

大模型就像一个通过新工艺改进的钻井平台,能够将埋藏在地底更深处的深层石油探测出来。大数据作为数字时代的生产要素,它有着不同于封建时代和工业时代生产要素的特性,大数据可以复用,可以无限再生。大模型技术的广泛应用将衍生出天量的全新数据。

“现在很多短视频,文本都是大模型生成的。大模型的广泛应用对企业数据量带来了巨大的增加,可以说大模型是大数据的大脑。此前散落在企业不同部门间的文件和各类数据类资产,都会因为大模型的出现而重见天日,价值再现。”罗永秀如是说。

大模型既能分析大数据,又能生成大数据,这些生成的大数据都是前一秒这个世界所没有的,我们要怎么看待这些由大模型创造出来的“前所未有”的数据呢?

王龙认为,大模型是个概率系统,目前写新闻稿还勉强可用,但是写一份公司的财务报告,大模型可能10000条内容都是对的,只有一条是错的,而且糟糕的是,用户也不知道那一条错的在哪里,什么时候会出错,在这种情况下企业就不敢把这件事全部交给大模型来办。确保大模型输出的信息真实、准确是当前非常重要的问题。随着大模型在各个领域的广泛应用,其输出的信息直接关系到决策的准确性和社会的稳定运行。

bbe0aa04e475cc30610f114fc767eb78.jpeg
矩阵起源创始人兼CEO王龙

熊伟指出,训练大模型意味着投入海量的数据,如何在保障隐私的基础上释放数据的价值,对于各行各业的企业来说都将是一个重要挑战。随着AIGC应用越发广泛而深入,通过模型训练优化、安全加密技术升级和合规监管体系的逐步完善,数据的安全性和隐私性将会得到很大的提升。

6edcd8056df3d6ffbe5db2c8ac3cb585.jpeg
维音中国副总裁熊伟

有分析家指出,每一次科技革命大致都要经历两个时期:前二三十年为导入期,在此期间,大量基础设施和关键产业日渐形成并逐步得到完善,它们在遇到旧范式抵抗的同时,也被新的范式所冲垮和颠覆;后二三十年为展开期。前期积累的结构性矛盾在制度框架调整下得以舒缓,科技革命带来的变革力量逐渐扩散到整个经济社会之中,使经济增长重新进入可持续增长模式。

带着人们无限期待大模型进入了2024年,嘉宾们对于新一年大模型的发展都表达出积极的态度。罗永秀认为,在整个经济发展增速放缓的背景下,企业经营将更加重视降本增效,企业可能会裁员减少各项支出,但是对于数据资产管理和知识管理的投入将会是增加的。王龙则更加乐观,他认为:“在大模型的上游和下游都有很多机会,上游的机会来自大模型训练、推理等基础设施环节;下游的机会则来自应用层,比如多模态的内容生成。我相信,未来20年的微软和今日头条可能就在24年诞生。”

AI copilot、AI agent、AI PC等多个大模型的技术分支正在朝着各自的方向奋力进发,引爆点、杀手级应用也许会以人们意想不到的方式在一夕之间惊艳世人。大模型与大数据就像量子纠缠一样,加速向产业交汇,更推动数据科学走向新纪元。这种融合为我们打开了通往更深层次洞察和智能决策的大门,引领着数据科学的全新时代。

文:俊驰 / 数据猿
责任编辑:凝视深空 / 数据猿

c154e15f358772b1d0ef4932f7fadd24.jpeg

fe91d64caecc7e7515b93cfea1fc5938.png

标签: 大数据

本文转载自: https://blog.csdn.net/YMPzUELX3AIAp7Q/article/details/135944632
版权归原作者 数据猿 所有, 如有侵权,请联系我们删除。

“拿什么样的大数据来“喂饱”狂飙的大模型”的评论:

还没有评论