伯克利大学的研究人员估计,1999年世界上产生了大约15亿G字节的信息,2003年的一项重复研究发现,这一数字在三年内翻了一番。数据已经变得越来越大,大约在2001年,行业分析师Doug Laney将“3v”——数量、种类和速度——描述为企业面临的关键“数据管理挑战”,在过去四年中,几乎所有试图定义或描述大数据的人都使用了同样的“3v”。
“大数据”一词的首次使用出现在1997年美国国家航空航天局(NASA)科学家的一篇论文中,描述了他们在可视化(即计算机图形)方面遇到的问题,“这给计算机系统带来了一个有趣的挑战:数据集通常相当大,占用主存储器、本地磁盘甚至远程磁盘的容量。我们称之为大数据问题。当数据集不适合主存,或者当它们甚至不适合本地磁盘时,最常见的解决方案是获取更多的资源。
2008年,一些杰出的美国计算机科学家推广了这个术语,他们预测“大数据计算”将“改变公司、科研人员、医疗从业者以及我们国家的国防和情报行动的活动”。然而,“大数据计算”一词从未在论文中定义。
(#1)传统的权威定义数据库当然是《牛津英语词典》。《牛津英语词典》对大数据的定义是这样的:“规模非常大的数据,通常在一定程度上对其操作和管理构成了重大的挑战。”
但现在是2014年,也许第一个寻找定义的地方应该是维基百科。事实上,《牛津英语词典》似乎也参考了这个定义。维基百科对大数据的定义(在牛津英语词典之前)是(#2)“一个包罗万象的术语,指的是任何数据集的集合,这些数据集非常庞大和复杂,以至于难以使用现有的数据管理工具或传统的数据处理应用程序进行处理。”
尽管这一定义的变体是大多数评论人士对大数据使用的定义,但它与美国宇航局研究人员1997年定义的相似之处暴露了它的弱点。“大型”和“传统”是相对的和模糊的。
(#3)麦肯锡公司在 2011 年被广泛引用的大数据研究突出了这个定义上的挑战。将大数据定义为“其规模超出了典型数据库软件工具的捕获、存储、管理和分析能力的数据集”,麦肯锡的研究人员承认,“这个定义是主观的,并且包含了一个关于数据集需要多大才能被视为大数据的定义。”因此,该研究的所有定量见解(包括通过估计企业和消费者每年存储多少新数据来更新加州大学伯克利分校的数据),都与数字数据有关,而不仅仅是大数据,例如,没有尝试估计企业存储的数据或数据集中有多少是大数据。
另一个著名的大数据来源是Viktor Mayer-Schönberger和Kenneth Cukier关于这个主题的书。他们指出,“大数据没有严格的定义”,但他们给出了一个可以用数据做什么的定义,以及为什么大数据的规模很重要:
(#4)“社会以新颖的方式利用信息以产生有用的见解或具有重要价值的商品和服务的能力”和“什么东西可以在大规模上做而不能在小规模上做的事情,以提取新的见解或创造新的价值形式。”
Tom Davenport总结道,由于大数据的“定义问题”,“我(和我咨询过的其他专家)预测这个术语的寿命相对较短。”不过,Davenport给出了这样的定义:
(#5)“在过去十年左右的时间里,出现了大量的新数据类型。”
让我提供一些其他可能的定义:
(#6)新工具帮助我们找到相关数据并分析其含义。
(#7)企业和消费者信息技术的融合。
(#8)对企业来说,从处理内部数据到挖掘外部数据的转变。
(#9)对个人而言,从消费数据到创造数据的转变。
(#10)奥利姆・马克西姆夫人(代表魔法的力量)和数据中校(代表科技的实力)的融合体。
(#11)你拥有的数据越多,你的见解和答案就会自动产生。
(#12)企业、非营利组织、政府机构和个人的新态度是,将来自多个来源的数据结合起来,可能会做出更好的决策。
我喜欢最后两个。第11条是对为了收集更多数据而盲目收集更多数据的警告。第12条是承认将数据存储在“数据孤岛”中一直是让数据为我们服务、改善我们的工作和生活的关键障碍。
本文转载自 雪兽软件
更多精彩推荐请访问 雪兽软件官网
版权归原作者 雪兽软件 所有, 如有侵权,请联系我们删除。