0


大数据概述

大数据的概念

麦肯锡全球研究所给出的大数据定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合。它具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低等四大特征。

大数据的特征

  1. 数据体量巨大:大数据的数据量通常达到PB(Petabyte)级别以上,远超传统数据库的处理能力。
  2. 数据类型多样:大数据包括结构化数据(如数据库中的表格数据)、半结构化数据(如日志数据)和非结构化数据(如文本、图像、音频、视频等)。
  3. 数据增长快速:随着互联网和物联网的普及,数据的产生速度越来越快,数据量呈指数级增长。
  4. 价值密度低:在海量数据中,有价值的数据占比较低,需要通过专业的技术手段进行提取和分析。

大数据的产生

产生这样大量的数据并不偶然,是多种因素驱动的结果。下面从与移动互联网的发展、政策法规的催动和数据的存储与计算的发展三方面进行描述

1.IT与移动互联网的发展

IT(Imnformation Technology,信息技术),主要指用于管理和处理信息所采用的各种技术总称。移动互联网指移动通信终端与互联网相结合成为一体,方便用户使用手机等无线终端设备,通过速率较高的移动网络,在移动状态下(如乘坐地铁、公交车等)随时随地
访向 termet 以获取信息,使用商务、娱乐等各种网络服务。随着信息技术的兴起,数据基于计算机存储、读取应用不断发展。而随着移动互联网的发展,通过手机、平板电脑等移动终端设备在线购物、办公、打车、浏览新闻、聊天听歌、观影等也已经渗透到人们日常工作、生活当中。随着物联网、云计算等TT技术的发展,以及3G经4G到5G网络的发展,皆动了数据量的激增。例如新浪微博2019年Q3 财报显示,截至 2019年9月底,微博月活跃用户达到4.97亿,日活跃用户增至2.16亿。当年国庆期间,近6000家媒体在微博上发布了近28万条国庆相关视频内容,被用户广泛关注,整体播放量超过86亿。

2.政策法规的催动

当今社会,大数据技术成为新的生产要素,是一个国家实力的新体现,是国家的重要资产。许多国家制定一系列政策法规,推动本国大数据技术在各行业中的应用与发展
2009年,美国宣布实施“开放政府计划”,开通“一站式”政府数据下载网站datagov。2011年,法国政府推出的公开信息线上共享平台data.gouv.fr,上线当天发布的第批资源中就包含 352000组数据。2012年,世界上首个开放式数据研究所0DI(TheOpenData Imstitute)在英国政府的支持下建立;日本由战略本部发布电子政务开放数据战略草案,迈出了其政府数据公开的关键性一步;印度政府批准了国家数据共享和开放政策:澳大利亚政府发布《澳大利亚公共服务信息与通信技术战略2012-2015》,强调应增强政府机构的数据分析能力从而促进更好的服务传递和更科学的政策制定。欧盟委员会于2014年发布《数据驱动经济战略》,聚焦深入研究基于大数据价值链的创新机制,提出大力推动“数据价值链战略计划”。
近年来,我国也相继出台了一系列相关政策推动大数据的技术、产业及其标准化的发展。国务院办公厅在2015年7月印发《关于运用大数据加强对市场主体服务和监管的若干意见》,肯定了大数据在市场监管服务中的重大作用。同年8月,国务院印发《促进大数据发展行动纲要》,系统部署大数据发展工作,并着重强调“建立标准规范体系”。2017年,国务院办公厅发布了《政务信息系统整合共享实施方案》,明确了加快推进政务信息系统整合共享的“十件大事”。围绕国家政策,各部委和相关行业也出台了一系列政策来促进推动大数据在生态环境、国土资源、林业、交通运输、农业农村、水利、智慧城市等各领域中的应用。国家还设立了大数据综合试验区,旨在贯彻落实国务院《促进大数据发展行动纲要》,促进大数据技术的试验探索,推动我国大数据创新发展,起到示范带头、统筹布局、先行先试的作用。

3.存储与计算的发展

存储主要指数据应用计算机存储器进行记录。其中计算机存储器是一种利用半导体、磁性介质等技术制成的存储数据的电子设备,电子设备中电子电路以二进制方式存储数据。半导体芯片技术参照着摩尔定律在不断发展。摩尔定律是指集成电路上司容纳的品体管数目,约每隔18个月便会增加一倍,性能也将提升一倍,一定程度:体现了计算存储技术的发展速度。计算是一种将“单一或多个的输人值”转换》“单一或多个的结果”的一种思考过程。目前对大数据的存储与计算大多基于“内衣-磁盘”访问模式,以及网络间的数据传输。硬件技术支撑的计算能力、内存容量磁盘存储容量近年快速提升,同期软件技术关于分布式存储技术与分布式计算技术理论逐步成熟,如图1-2所示,初期基于单服务器存储与计算的模式已发展成基于服务器集群的计算模式。其中服务器作为硬件来说,通常是指那些具有较高计算能力,能够提供给多个用户使用的计算机。服务器应用过程中,硬件中的资源进行存储与计算时通常得不到充分的利用,面对应用的巨量数据的服务器集群来讲,相对而言,浪费的资源较大,也不便于集群的管理。虚拟化技术起源于20世纪60年代末。当时美国IBM 公司开发了一套被称作“虚拟机监视器”的软件。该软件作为计算机硬件层上面的一层软件抽象层,将计算机的各种实体资源(CPU、内存、磁盘空间、网络适配器等)予以抽象、转换后呈现出来并可供分制、组合为一个或多个虚拟机,并支持多用户对大型计算机的同时、交互访问。在计算机技术中,虚拟化是一种资源管理技术,打破了实体结构间的不可切割的障碍,使用户可以用比原本的配置更好的方式来应用这些计算机硬件资源。这些资源的新虚拟部分不受现有资源的架设方式、地域或物理配置所限制。一般所指的虚拟化资源包括计算能力和数据存储,在基于大数据情景下的云计算、物联网、人工智能等大数据相关项目中应用广泛。
大数据项目中,云存储是较流行的手段,它通过网络在线存储的模式,通常将数据存放在第三方托管的多台虚拟服务器上。基于云存储服务通过Web服务应用程序接口(API)或Web用户界面来访问数据,完成特定业务的计算,即云计算,它可共享软硬件资源和信息,并按需提供给计算机各种终端和其他设备。

大数据的数据结构

随着企业信息化带来的多个应用系统的数据,加之互联网、物联网、云计算、5G网络技术的发展,带来了电商、社交网络、工业传感器等多种业务数据的来源。这些数据类型丰富,按数据格式强度可分为结构化数据、非结构化数据和半结构化数据
1.结构化数据
结构化数据具有较强的结构模式,数据本质上是“先有结构,后有数据”,可以使用关系数据库描述与存储。例如用户信息表,首先基于关系库建立一个包含用户名、性别、出生日期、住址4个属性表的表,表中插入的每位用户的数据都具备这4个属性值
2.非结构化数据
非结构化数据的数据结构不规则,没有预定义的数据模型,并不能用数据库的二维逻辑很好地进行描述。例如存储在文本文件中的系统日志、图像、音频、视频等数据都属于非结构化数据。

3.半结构化数据
介于结构与非结构之间,存在半结构化数据。它是一种弱化的结构化数据形式,具有一定的结构性,但并不符合结构化数据的严格模式,仍有明确的数据大纲,包含相关的标记,用来分割实体以及实体的属性,如XML、JSON等标记表现形式的数据。在各种数据类型中,保存在关系数据库中的结构化数据只占少数,而图片、音频、视频、模型、连接信息、文档等非结构化和半结构化数据占比为80%左右,如目前企业数据中非结构化数据占比就超过80%。非结构化数据年增长速度约为63%,远超过结构化数据年增长速度(约32%)。数据之间的频繁交互,相对于传统数据间的关系,关联性更强如游客在旅途中上传的图片和日志,就与游客的位置、行程等信息有着很强的关联性

大数据的应用与挑战

大数据技术在各个领域都有广泛的应用,包括但不限于:

  1. 电商领域:电商平台利用大数据分析用户信息,进行精准推送和个性化推荐,优化供应链管理等。
  2. 政府领域:“智慧城市”是大数据在政府领域的典型应用,通过整合城市中的各种数据,提高公共服务水平和城市管理效率。
  3. 医疗领域:医疗行业利用大数据进行临床决策支持、疾病诊断和治疗方案确定等,提高医疗水平和服务质量。
  4. 传媒领域:传媒企业借助大数据收集信息,优化内容推送和广告投放策略,提高用户体验和满意度。
  5. 安防领域:大数据技术在安防领域的应用包括视频图像模糊查询、快速检索和精准定位等,有助于预防和打击犯罪。
  6. 金融领域:大数据在金融交易、风险评估和欺诈检测等方面发挥重要作用,提高金融服务的效率和安全性。

大数据的意义

大数据的意义深远且广泛,体现在决策支持、创新驱动、市场洞察、效率提升、资源配置优化、经济发展促进等多个层面。以下是对大数据意义的详细阐述:

一、决策支持

大数据能够帮助企业和组织收集、整理和分析海量数据,为决策提供有力支持。通过对数据的深入挖掘和分析,可以发现隐藏在数据背后的规律和趋势,为决策者提供更加准确和全面的信息。这种基于数据的决策方式,相较于传统的经验决策或直觉决策,具有更高的科学性和准确性。

二、创新驱动

大数据为科技创新提供了源源不断的动力。通过对大数据的分析和处理,可以发现新的技术、产品和服务,推动科技进步和社会发展。例如,在医疗领域,大数据技术被用于分析患者的病历数据,以发现潜在的疾病风险和治疗方案;在金融行业,大数据被用于风险评估、欺诈检测等方面,提高了金融服务的效率和安全性。

三、市场洞察

大数据可以帮助企业更好地了解市场需求和消费者行为,从而调整产品策略、优化营销策略,提高市场竞争力。通过大数据分析,企业可以掌握消费者的偏好、购买习惯等信息,进而制定更加精准的营销策略和产品定位。

四、效率提升

大数据技术的应用可以极大地提高数据处理和分析的效率,减少人工干预和错误,提高工作质量和效率。例如,在物流行业,大数据技术被用于优化配送路线和库存管理,降低了物流成本并提高了配送效率。

五、资源配置优化

通过对大数据的分析,可以更加准确地预测资源需求和供应情况,实现资源的优化配置和合理利用。在制造业中,大数据技术被用于预测生产线的产能和物料需求,以优化生产计划并减少库存积压。

六、经济发展促进

大数据产业的发展已经成为新的经济增长点。大数据技术的应用可以推动产业升级和转型,促进经济发展和社会进步。例如,在智慧城市建设中,大数据技术被用于交通管理、环境监测等方面,提高了城市管理的效率和水平。

七、改善公共服务

大数据也被广泛应用于改善公共服务。例如,通过分析城市交通数据,可以优化公共交通路线和服务时间,提高公共交通的效率和便捷性。在医疗领域,大数据被用于监测和预测疾病流行趋势,为公共卫生决策提供科学依据。

八、个性化服务

大数据使得企业和组织能够提供更加个性化的服务。通过对用户数据的分析,可以了解用户的喜好和需求,从而提供更加精准的产品推荐和服务。这种个性化的服务方式不仅提高了用户满意度,还促进了企业的竞争力提升。

综上所述,大数据的意义体现在多个方面,它不仅为企业和组织提供了更加科学、准确的决策支持,还推动了科技创新、市场洞察、效率提升和资源优化配置等方面的发展。随着大数据技术的不断发展和普及,其在各个领域的应用将会越来越广泛,对社会的影响也将越来越深远。

大数据的发展趋势

我国大数据产业规模稳步增长。根据中国信息通信研究院的数据,2017年我国大数据产业规模为4700亿元,同比增长36%。大数据软硬件产品的产值约为234亿元人民币同比增长 39%。2017年我国数字经济总量达到27.2万亿元,同比名义增长超过20.3%占GDP比重达到32.9%。在这其中,以大数据为代表的新一代信息技术对于数字经济的贡献功不可没。
大数据与实体经济融合提速,但不均衡现象突出。从行业角度看,金融、政务、电信、电商等行业发展融合效果好。从业务类型上看,主要集中在外围业务,如营销分析客户分析和内部运营等,在产品设计、产品生产、企业供应链管理等核心业务方面的融合有待提高。从地域分布看,受经济分布、人才聚集、技术发展等因素影响,大数据应用主要分布在北京、上海、广东、浙江等东部发达地区,中西部地区发展水平较低,有待提高,且需求较大。
大数据与云计算、人工智能等前沿创新技术深度融合,实现超大规模计算、智能化与自动化和海量数据的分析,能在短时间内完成复杂度和精密度较高的信息处理。

标签: 大数据

本文转载自: https://blog.csdn.net/2302_82020031/article/details/143435315
版权归原作者 子期235 所有, 如有侵权,请联系我们删除。

“大数据概述”的评论:

还没有评论