作者:禅与计算机程序设计艺术
1.简介
随着经济、科技和社会的快速发展,信息技术正在改变我们的生活。从20世纪70年代开始,大数据技术已经成为热门话题。基于大数据的应用如搜索引擎、推荐系统、图像识别、地图导航等已经发展出一批商业化产品。但在最近几年里,随着5G网络、大规模分布式计算、人工智能的发展,以及移动互联网的兴起,大数据已不再局限于互联网领域。新一代的数据处理技术正在向高维、低纬度、复杂数据集转变,并带来全新的应用场景。
本文将围绕这五个领域进行讨论,介绍新一代数据处理技术的关键技术、应用案例以及未来发展方向。文章将回顾之前关于大数据技术的研究,分析其局限性,并提出一些新颖的设想。
2.相关术语与定义
- Big data(海量数据):指由于各种渠道产生而涉及海量数据的一种现象。一般包括文本、图像、视频、音频、网络流量、社交媒体、位置数据、消费习惯、金融交易、健康记录、用户行为日志、公共数据等。
- Data lake:是一个存储、管理、分析海量数据的平台或环境。它是企业内部或外部的存储库,用于存储、保护、查询和分析生产中的各种数据,具有以下特征:- 数据格式多样,包括结构化数据、非结构化数据、半结构化数据;- 来源广泛,包括业务数据库、日志文件、文件系统、网站索引、电子邮件、文件共享、工业设备传感器数据等;- 速度快,时延低;- 数据量大,主要面临数据采集和处理效率问题。
- ETL(抽取-转换-加载)ÿ
版权归原作者 禅与计算机程序设计艺术 所有, 如有侵权,请联系我们删除。