一、大数据的4v特征
大数据的4v特征主要包含规模性(Volume)、多样性(Variety)、高速性(Velocity)、价值性(Value)
1、规模性(Volume)
大数据中的数据计量单位是PB(1千个T)、EB(1百万个T)或ZB(10亿个T)。
2、多样性(Variety)
多样性主要体现在数据来源多、数据类型多和数据之间关联性强这三个方面。
①数据来源多,互联网和物联网的发展,带来了诸如社交网站、传感器等多种来源的数据。 而由于数据来源于不同的应用系统和不同的设备,决定了大数据形式的多样性。
②数据类型多,并且以非结构化数据为主。大数据中有70%-85%的数据是如图片、音频、视频、网络日志、链接信息等非结构化和半结构化的数据。
③数据之间关联性强,频繁交互,如游客在旅游途中上传的照片和日志,就与游客的位置、行程等信息有很强的关联性。
3、高速性(Velocity)
大数据对处理数据的响应速度有更严格的要求。实时分析而非批量分析,数据输入、处理与丢弃立刻见效,几乎无延迟。数据的增长速度和处理速度是大数据高速性的重要体现。
4、价值性(Value)
大数据背后潜藏的价值巨大。由于大数据中有价值的数据所占比例很小,而大数据真正的价值体现在从大量不相关的各种类型的数据中。挖掘出对未来趋势与模式预测分析有价值的数据,并通过机器学习方法、人工智能方法或数据挖掘方法深度分析,并运用于农业、金融、医疗等各个领域,以期创造更大的价值。
5、大数据应用实例
互联网是最早利用大数据进行精准营销的行业,通过大数据不仅可以为企业进行精准销,还可以快速友好地对用户实施个性化解决方案。
医疗行业拥有大量的病例、病理报告、治愈方案、药物报告等。如果这些数据可以被整理和应用将会极大地帮助医生和病人。
二、数据预处理的主要内容
数据预处理主要包含数据清洗、数据集成、数据变换、数据归约。
1、数据清洗:删除原始数据集中无关数据、重复数据、平滑噪声数据,处理缺失值、异常值等。
2、数据集成:将多个数据源合并存放在一个一致的数据存储中的过程。在数据集成时,来自多个数据源的现实世界实体的表达形式是不一样的,有可能不匹配,要考虑实体识别问题和属性冗余问题,从而将源数据在最低层上加以转换、提炼和集成。
3、数据变换: 主要是对数据进行规范化处理,将数据转换成适当的形式,以适用于挖掘任务以及算法的需要。
4、数据归约:在大数据集上进行复杂的数据分析和挖掘需要很长时间。数据规约产生更小但保持原数据完整性的新数据集。
以上简要介绍数据预处理中包含的内容,仅为自己学习需要,仅供参考。
如有侵权,请联系我们删除。