大数据到底有多大?
普通个人电脑所能存储的数据,一般是几百个GB到几个TB的级别。
例如,常见的固态硬盘,512GB就已经比较大了;常见的机械硬盘,可达1TB/2TB/4TB的容量。
GB(Giga Byte)— 吉字节,也就是1024MB
TB(Tera Byte)— 太字节,也就是1024GB
而大数据是什么级别呢?PB/EB级别。其实就是在TB的基础上每一级接着乘以1024。
PB(Peta Byte)— 皮字节,也就是1024TB
EB(Exa Byte)— 艾字节,也就是1024PB
一本《红楼梦》:纯文本(未压缩),约2MB
一张1200万像素的照片(未压缩):约34MB
一部90分钟的电影(H.264编码):约2.5GB(也就是2500MB)
1PB的容量大约可存储5亿本书,3千万张图片,或40万部90分钟的电影
真的有企业会产生如此海量的数据吗?大数据是怎样产生的?
阿里、百度、腾讯这样的互联网巨头,因为其拥有数亿的用户,这些海量用户产生的数据量早已超越PB级,接近EB级。
电信,银行 存放的海量话单数据,银行存单消费类数据也早已超越PB级,接近EB级。
用户在手机上的每一次滑动和点击,都会被各式各样的APP上传并存储,以及在微博,微信,知乎,抖音等各种社交或者UGC类APP上创作的文本,图片和视频,形成海量的数据。
目前微信拥有11亿的用户,每天发送数百亿条消息,还有朋友圈,支付,扫一扫,摇一摇等多种行为都存储在微信的后台。
大数据的作用
你的一举一动,都被各种APP记录下来并进行分析,找出典型特征,并据此跟你打上各式各样的标签。这些标签汇聚起来就是你这个人在网络上的化身,美其名曰「用户画像」。
精准营销
你打开购物APP,醒目位置显示的都是自己想要买的东西;打开资讯APP,头条里面推荐的都是自己偏好的内容;打开搜索引擎,搜出来的东西都正好是自己想要找的。
亚马逊技术专家曾经说过:「如果系统运作良好,亚马逊应该只推荐你一本书,而这本书就是你将要买的下一本书。
我们在拼多多搜一个东西比如自行车,搜完以后,在打开主页面的时候发现,推送的大部分都是自行车相关
银行业的作用
根据你的存款,消费类习惯、贷款、理财产品,做出你的个人画像,最终为您营销理财产品。
电信行业的作用
根据你的通话记录,套餐使用情况,短信使用情况,流量情况,为您推荐合适的套餐
如果广州公交一卡通每天产生3千万条刷卡记录,那么通过分析这些刷卡记录,可以清楚的了解广州市民的出行规律,依据规律分析结果来有效改善城市交通。
美团小黄车,高德导航,滴滴打车,后台都存有每个人的出行规律很可怕,一旦泄露
最特殊的应用帮商家开店选址
微信,支付宝拥有大量的消费类数据,能分析出你所在的这一块区域用户的消费习惯是什么,比如那种食品的多,就开个店。
这个功能用一次据说8W。
传统数据库缺点 Mysql数据库
单表性能达到2000W,性能快速降低。
大数据的5V特点
大数据的5V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。
Volumn:数据体量大。很多中小型企业的入门数据量是从TB级别开始,很多大型企业的入门数据量是从PB级别开始,更有累计达到EB级别至ZB级别。
Variety:数据种类样式和来源多;
种类:文本(日志)、图片、音频、视频、flash等
样式:结构化数据(数据本身有结构并且数据解析之后能够用一张或者几张固定的表来存储);半结构化数据(数据本身有结构但是解析之后无法用一张或者几张固定的表来存储,例如接json、xml等);非结构化数据(数据本身没有结构并且解析之后无法用几张固定的表来进行存储,例如视频、音频等)
来源:日志、爬虫、网页埋点、手动录入、数据库等
Value:数据价值密度低。价值密度指的是想要的数据在总的数量中的占比。随着网络的发展,价值密度越来越低,但是不意味着获取到的数据越来越少,恰恰相反,获取到的数据是在变多的。只是想要的数据的增长速度比不上样本总量的增长速度。
Velocity:数据增长速度快。随着网络的发展,数据的产生速度以及增长数据越来越快
Veracity:真实性,数据的质量,即数据的准确性和可信赖度,信息的发展,信息来源广,但是真实度就不太行了
Valence:数据的连通性。随着大数据的发展,衍生出来了很多的技术、模块和产业,这个时候,就不得不考虑这些模块、技术和产业之间的关系
随着大数据的发展,产生了越来越多的特性:Vitality(动态性)、Visualization(可视化)、Validity(合法性,例如大数据杀熟、APP的过度索权)等
大数据技术栈有哪些
数据采集传输主要技术:
数据采集传输工具和技术主要分为两大类:离线批处理和实时数据采集和传输,离线批处理主要是批量一次性采集和导出数据,离线批处理目前比较有名的的是sqoop,下游的用户主要是离线数据处理平台(如Hive等)。实时数据采集和传输最为常用的则是Flume和kafka,其下游用户一般是实时流处理平台,如Storm、Spark、Flink等。
Sqoop 作为一款开源的离线数据传输工具,主要用于Hadoop(Hive)与传统数据库(Mysql,PostgreSQL等)间的数据传递。它可以将一个关系型数据库中的数据导入Hadoop的HDFS中,也可以将HDFS的数据导入关系型数据库中。
大数据的组织结构
大数据开发更多面对的是公司内部的产品销售
Flume 实时数据的采集越来越受到重视,而Flume也是这方面的主流的开源框架,国内很多互联网公司也都是基于Flume搭建自己的实时日志采集平台。
Flume是Cloudera提供的一个高可用、高可靠、分布式的海量日志采集、聚合和传输的系统,使用Flume可以收集诸如日志、时间等数据,并将这些数据资源集中存储起来供下游使用。
Kafka 通常来说Flume采集数据的速度和下游处理的速度通常不同步,因此实时平台架构都会用一个消息中间件来缓冲,而这方面最为流行和应用最为广泛的无疑是Kafka。
Kafka是由LinkedIn开发的一个分布式消息系统,以其可以水平扩展和高吞吐率而被广泛使用,Kafka是一个基于分布式的消息发布-订阅系统,特点是快速、可扩展且持久。Kafka可在主题当中保存消息的信息。生产者向主题写入数据,消费者从主题读取数据。作为一个分布式的、分区的、低延迟的、冗余的日志提交服务,得益于其独特的设计,目前Kafka使用非常广泛。
Apache Flink是由Apache软件基金会开发的开源流处理框架,其核心是用Java和Scala编写的分布式数据流引擎。Flink以数据并行和流水线方式执行任意流数据程序,Flink的流水线运行时系统可以执行批处理和流处理程序。此外,Flink的运行时本身也支持迭代算法的执行
开源大数据引擎Flink社区公布最新数据,Flink的Github Star数和贡献者人数每年正以超30%的速度增长,Github Star数超2万个,已有上千名贡献者(contributors)加入,月下载量峰值突破1400万次,连续两年蝉联 Apache基金会财年报告最活跃项目。
Flink能成为阿里的“专宠”,成为大数据领域最火爆的开源项目,根本原因只有一个,那就是流批一体趋势的推动。
大数据的高速发展已走过10年,未来会强调从计算的规模化走向数据流动的实时化。以双11为例,通过大屏实时展示交易额、成交额,并实现毫秒级更新,已成为业务场景的“刚需”。包括在银行、证券等核心的金融业务场景,实时计算可以更好地监控交易行为,进行反作弊反洗钱等行为的探测。
实时计算能够支持日常生活中涉及的各个场景,背后需要一套极其强大的大数据计算能力,Flink在此种背景下应运而生。因为传统的Hadoop、Spark 等计算引擎,本质上是批计算引擎,只能对有限的数据集进行数据处理,延时性不能保证。而Flink从设计之初就从流计算开启,可以实时查阅生产场景中的数据,并对数据进行实时分析,让数据在第一时间发挥价值。凭借强一致性的计算能力、大规模的扩展性、整体性能卓越等特性,Flink瞬间赢得广大用户的青睐。
Apache Hadoop是大数据处理领域的奠基石之一
Hadoop的两个主要组件是Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)和MapReduce。HDFS用于存储大规模数据集,将数据分散存储在多个计算节点上,以提高可靠性和容错性。MapReduce是一种编程模型和处理引擎,用于在分布式数据集上执行并行处理任务。
版权归原作者 Allen019 所有, 如有侵权,请联系我们删除。