1. 大数据定义
大数据到底是什么?
大数据的定义是数据种类更多、数量更多、速度更快。这也被称为三个“V”。
简单来说,大数据是更大、更复杂的数据集,尤其是来自新数据源的数据集。这些数据集非常庞大,传统数据处理软件根本无法管理它们。但这些海量数据可用于解决您以前无法解决的业务问题。
2. 大数据的三个“V”
2.1 数据量
数据量对于大数据,很重要!您必须处理大量低密度、非结构化数据。这可能是未知价值的数据,例如 X(以前称为 Twitter)数据提要、网页或移动应用程序上的点击流或支持传感器的设备。对于某些组织,这可能是数十 TB 的数据。对于其他组织,这可能是数百 PB 的数据。
2.2 速度
速度是指接收数据并(可能)采取行动的速度。通常,数据直接流入内存的速度比写入磁盘的速度更快。一些支持互联网的智能产品实时或接近实时运行,需要实时评估和采取行动。
2.3 多样性
多样性是指可用的数据类型之多。传统数据类型是结构化的,可以整齐地放入关系数据库中。随着大数据的兴起,数据以新的非结构化数据类型出现。非结构化和半结构化数据类型(如文本、音频和视频)需要额外的预处理才能得出含义和支持元数据。
3. 大数据的价值和真相
过去几年又出现了两个“V”:价值和真实性。数据具有内在价值。但在发现其价值之前,数据毫无用处。同样重要的是:你的数据有多真实——你能在多大程度上信赖它?
如今,大数据已成为资本。想想世界上一些最大的科技公司。它们提供的价值很大一部分来自数据,它们不断分析数据以提高效率并开发新产品。
最近的技术突破大幅降低了数据存储和计算成本,使存储更多数据变得比以往任何时候都更加容易且成本更低。随着大数据量的增加,现在更便宜且更易于访问,您可以做出更准确、更精确的业务决策。
寻找大数据的价值不仅仅在于分析它(这是另一个好处)。这是一个完整的发现过程,需要有洞察力的分析师、业务用户和高管提出正确的问题、识别模式、做出明智的假设并预测行为。
但我们是怎么来到这里的?
4. 大数据的历史
虽然大数据的概念本身相对较新,但大数据集的起源可以追溯到 20 世纪 60 年代和 70 年代,当时数据世界才刚刚起步,出现了第一个数据中心和关系数据库。
2005 年左右,人们开始意识到用户通过 Facebook、YouTube 和其他在线服务产生了多少数据。同年开发了 Hadoop(一种专门用于存储和分析大数据集的开源框架)。在此期间,NoSQL 也开始流行起来。
开源框架(例如 Hadoop(以及最近的 Spark))的发展对于大数据的增长至关重要,因为它们使大数据更易于处理且存储成本更低。自那时以来,大数据量急剧上升。用户仍在生成大量数据 - 但不仅仅是人类在生成数据。
随着物联网 (IoT) 的出现,越来越多的物体和设备连接到互联网,收集有关客户使用模式和产品性能的数据。机器学习的出现产生了更多的数据。
虽然大数据已经取得了长足进步,但其实用性才刚刚开始。云计算进一步扩展了大数据的可能性。云提供了真正的弹性可扩展性,开发人员可以简单地启动临时集群来测试数据子集。图形数据库也变得越来越重要,因为它们能够以一种快速、全面的方式显示大量数据。
5. 大数据优势
- 大数据可以让你获得更完整的答案,因为你拥有更多的信息。
- 更完整的答案意味着对数据的更有信心——这意味着一种完全不同的解决问题的方法。
6. 大数据用例
大数据可以帮助您处理一系列业务活动,包括客户体验和分析。以下仅列举其中几个。
6.1 产品开发
Netflix 和宝洁等公司使用大数据来预测客户需求。他们通过对过去和当前产品或服务的关键属性进行分类,并对这些属性与产品商业成功之间的关系进行建模,为新产品和服务建立预测模型。此外,宝洁还使用来自焦点小组、社交媒体、测试市场和早期门店推广的数据和分析来规划、生产和推出新产品。
6.2 预测性维护 预测
机械故障的因素可能深藏在结构化数据中,例如设备的年份、品牌和型号,以及涵盖数百万个日志条目、传感器数据、错误消息和引擎温度的非结构化数据中。通过在问题发生之前分析这些潜在问题的迹象,组织可以更经济高效地部署维护,并最大限度地延长零件和设备的正常运行时间。
6.3 客户体验
争夺客户的竞争已经开始。现在比以往任何时候都更有可能更清晰地了解客户体验。大数据使您能够从社交媒体、网站访问、通话记录和其他来源收集数据,以改善交互体验并最大化交付的价值。开始提供个性化服务,减少客户流失,并主动处理问题。
6.4 欺诈与合规性
说到安全,您面临的不仅仅是几个流氓黑客,而是整个专家团队。安全形势和合规性要求在不断发展。大数据可帮助您识别数据中表明欺诈的模式,并汇总大量信息,从而加快监管报告的速度。
6.5 机器学习
机器学习是当下的热门话题。数据(特别是大数据)是其中的原因之一。我们现在能够教机器,而不是编程。大数据可用于训练机器学习模型,这使得这成为可能。
6.6 运营效率
运营效率可能并不总是新闻焦点,但这是大数据影响最大的领域。借助大数据,您可以分析和评估生产、客户反馈和退货以及其他因素,以减少停机并预测未来需求。大数据还可用于根据当前市场需求改进决策。
6.7 推动创新
大数据可以帮助您通过研究人类、机构、实体和流程之间的相互依赖关系,然后确定使用这些见解的新方法,从而实现创新。利用数据见解来改善有关财务和规划考虑的决策。研究趋势以及客户想要提供的新产品和服务。实施动态定价。可能性无穷无尽。
7. 大数据挑战
大数据虽然前景广阔,但也面临挑战。
- 首先,大数据就是……大。尽管已经开发出用于数据存储的新技术,但数据量大约每两年就会翻一番。组织仍然难以跟上数据增长的步伐,并找到有效存储数据的方法。
- 但仅仅存储数据是不够的。数据必须被使用才能有价值,而这取决于数据管理。干净的数据,或者与客户相关且以能够进行有意义分析的方式组织的数据,需要大量的工作。数据科学家在实际使用数据之前,要花费50% 到 80% 的时间来管理和准备数据。
- 最后,大数据技术正在快速变化。几年前,Apache Hadoop 是处理大数据的流行技术。然后 Apache Spark 于 2014 年推出。如今,这两个框架的组合似乎是最佳方法。跟上大数据技术的步伐是一项持续的挑战。
8. 大数据的工作原理
大数据为您提供新见解,从而开启新机遇和新商业模式。入门涉及三个关键操作:
8.1 集成
大数据汇集了来自许多不同来源和应用程序的数据。传统的数据集成机制,如提取、转换和加载 (ETL) 通常无法胜任这项任务。它需要新的策略和技术来分析 TB 级甚至 PB 级的大数据集。
在集成过程中,您需要引入数据、处理数据,并确保其格式化并以业务分析师可以开始使用的形式提供。
8.2 管理
大数据需要存储。您的存储解决方案可以位于云中、本地或两者兼而有之。您可以以任何您想要的形式存储数据,并根据需要将所需的处理要求和必要的流程引擎带到这些数据集中。许多人根据数据当前所在的位置来选择存储解决方案。云正逐渐流行起来,因为它支持您当前的计算需求并使您能够根据需要启动资源。
8.3 分析
当您分析数据并采取行动时,您对大数据的投资就会得到回报。通过对各种数据集进行可视化分析,获得新的清晰度。进一步探索数据以获得新发现。与他人分享您的发现。使用机器学习和人工智能构建数据模型。让您的数据发挥作用。
9. 大数据最佳实践
为了帮助您踏上大数据之旅,我们整理了一些关键的最佳实践供您参考。以下是我们构建成功大数据基础的指南。
9.1 将大数据与特定业务目标相结合
更全面的数据集可让您获得新发现。为此,重要的是在强大的业务驱动背景下对技能、组织或基础设施进行新投资,以保证持续的项目投资和资金。要确定您是否走在正确的轨道上,请问大数据如何支持和实现您的首要业务和 IT 优先事项。示例包括了解如何过滤网络日志以了解电子商务行为、从社交媒体和客户支持互动中获取情绪,以及了解统计关联方法及其与客户、产品、制造和工程数据的相关性。
9.2 通过标准和治理缓解技能短缺 技能
短缺是从大数据投资中获益的最大障碍之一。您可以通过确保将大数据技术、考虑因素和决策添加到您的 IT 治理计划中来降低这种风险。标准化方法将使您能够管理成本并利用资源。实施大数据解决方案和战略的组织应尽早并经常评估其技能需求,并应主动识别任何潜在的技能差距。可以通过培训/交叉培训现有资源、雇用新资源和利用咨询公司来解决这些问题。
9.3 利用卓越中心优化知识转移
使用卓越中心方法来共享知识、控制监督和管理项目沟通。无论大数据是一项新投资还是一项扩展投资,软硬成本都可以在整个企业内分担。利用这种方法可以帮助以更结构化和系统化的方式提高大数据能力和整体信息架构成熟度。
9.4 最大的收益是将非结构化数据与结构化数据相结合
单独分析大数据当然很有价值。但通过将低密度大数据与您目前使用的结构化数据连接和集成,您可以获得更深入的业务洞察。
无论您捕获的是客户、产品、设备还是环境大数据,目标都是向您的核心主数据和分析摘要添加更多相关数据点,从而得出更好的结论。例如,区分所有客户情绪与仅区分最佳客户情绪是有区别的。这就是为什么许多人将大数据视为其现有商业智能功能、数据仓库平台和信息架构不可或缺的延伸。
请记住,大数据分析过程和模型既可以基于人,也可以基于机器。大数据分析功能包括统计、空间分析、语义、交互式发现和可视化。使用分析模型,您可以关联不同类型和来源的数据,以建立关联并发现有意义的结果。
9.5 规划您的发现实验室以提高绩效
发现数据中的含义并不总是那么简单。有时我们甚至不知道我们在寻找什么。这是意料之中的。管理层和 IT 部门需要支持这种“缺乏方向”或“缺乏明确要求”的情况。
与此同时,分析师和数据科学家必须与企业密切合作,了解关键业务知识差距和要求。为了适应数据的交互式探索和统计算法的实验,您需要高性能的工作区。确保沙盒环境具有所需的支持,并得到适当的管理。
9.6 与云运营模式保持一致
大数据流程和用户需要访问各种资源,以进行迭代实验和运行生产作业。大数据解决方案包括所有数据领域,包括交易、主数据、参考数据和汇总数据。应按需创建分析沙箱。资源管理对于确保控制整个数据流(包括预处理和后处理、集成、数据库内汇总和分析建模)至关重要。精心规划的私有云和公共云配置和安全策略在支持这些不断变化的需求方面发挥着不可或缺的作用。
版权归原作者 码踏云端 所有, 如有侵权,请联系我们删除。