CDH大数据平台入门篇之搭建与部署

CDH:存储各种类型的数据、使用各种不同的计算框架进行操作、能够快速集成和运行一个完整的Hadoop平台,适用于各种不同的硬件和软件、高安全性且能够部署多种应用,并扩展和扩充它们以满足你的需求、还可以放心地用于关键的商业任务。

Hadoop集群安装部署

hadoop集群的搭建

sparksql源码系列 | 一文搞懂Show create table 执行原理

这篇文章主要介绍了show create table命令执行的源码流程,弄清楚了sparksql是怎么和hive元数据库交互,查询对应表的metadata,然后拼接成最终的结果展示给用户的

架构师必知必会系列:容器安全与容器漏洞管理

作者:禅与计算机程序设计艺术 1.简介容器漏洞是一个敏感的话题。由于容器技术的普及和社区成熟,越来越多的企业、组织将容器技术作为一种“云”服务进行应用部署、运维和管理,而容器成为一个“平台”,其潜在危险性也越来越高。因此,保护容器环境免受攻击并修补漏洞是非常重要

大数据SpringBoot项目——基于SpringBoot+Bootstrap框架的学生宿舍管理系统的设计与实现

该系统采用了基于Bootstrap的样式搭建的管理系统,后台采用SpringBoot框架和MySQL数据库,通过Java+javasript+jsp 语言编写,具有比较高的安全性,跨平台,很强的可移植性。学生可以非常方便查看宿舍信息、入住信息。宿舍管理员可以通过后台强大的信息修改功能进行更新,对楼宇

Spark内核

任务的最小单位是线程。失败重试,会记录失败的次数,如果超过最大重试次数,宣告Application失败。失败的同时会记录它上一次所在的ExecutorID和Host, 最多重试4次。落盘的话就需要考虑不同分区之间的数据如何存放的问题。假设每个Executor有两个Task,总共有三个分区。特点:无论

oracle递归查询connect by prior

oracle的start with connect by prior是条件递归查询,树结构

Win10 环境下 spark 本地环境的搭建

此电脑(右击)==>属性==>高级系统设置==>环境变量==>系统变量==>Path==>新建。此电脑(右击)==>属性==>高级系统设置==>环境变量==>系统变量==>Path==>新建。此电脑(右击)==>属性==>高级系统设置==>环境变量==>系统变量==>Path==>新建。下载 jdk

Flume 整合 Kafka

以实时流处理项目为例,由于采集的数据量可能存在峰值和峰谷,假设是一个电商项目,那么峰值通常出现在秒杀时,这时如果直接将 Flume 聚合后的数据输入到 Storm 等分布式计算框架中,可能就会超过集群的处理能力,这时采用 Kafka 就可以起到削峰的作用。Kafka 天生为大数据场景而设计,具有高吞

图解Spark Graphx基于connectedComponents函数实现连通图底层原理

图解Spark Graphx基于connectedComponents函数实现连通图底层原理

Hadoop RPC简介

数新网络-让每个人享受数据的价值RPC(Remote Procedure Call)远程过程调用协议,一种通过网络从远程计算机上请求服务,而不需要了解底层网络技术的协议。RPC它假定某些协议的存在,例如TPC/UDP等,为通信程序之间携带信息数据。在OSI网络七层模型中,RPC跨越了传输层和应用层,

大数据技术原理与应用 概念、存储、处理、分析和应用(林子雨)——第五章 NoSQL数据库

大数据技术原理与应用 概念、存储、处理、分析和应用(林子雨)——第五章 NoSQL数据库

大数据智能决策系统架构:决策系统与自动驾驶

作者:禅与计算机程序设计艺术 1.简介自动驾驶、智能出行以及城市规划等领域,已经引起越来越多人的关注。如何快速、精准地解决这些复杂的问题,让智能出行产品的用户感到舒适、安全以及顺畅,是目前研究的热点。但是,如何将一个自动驾驶、智能出行、城市规划问题,转化成自动化

大数据组件-Flume集群环境搭建

Flume是一个分布式、可靠和高可用性的数据采集工具,用于将大量数据从各种源采集到Hadoop生态系统中进行处理。在大型互联网企业的数据处理任务中,Flume被广泛应用。Flume集群环境介绍:Agent:Flume的基本组成单元是Agent,用于在不同的节点之间传输数据。Agent可以是单节点或分

Flink Hive Catalog操作案例

在此对Flink读写Hive表操作进行逐步记录,需要指出的是,其中操作Hive分区表和非分区表的DDL有所不同,以下分别记录。

【数据集资源】大数据资源-数据集下载方法-汇总

数据集中的评价对象按照粒度不同划分为两个层次,层次一为粗粒度的评价对象,例如评论文本中涉及的服务、位置等要素;深证创业板日线数据,截止 2017.05.05,原始价、前复权价、后复权价,636支股票http://dataju.cn/Dataju/web/datasetInstanceDetail/3

Flink 的安装与基础编程

Apache Flink是一个分布式处理引擎,用于对无界和有界数据流进行有状态计算。Flink以数据并行和流水线方式执行任意流数据程序,它的流水线运行时系统可以执行批处理和流处理程序。此外,Flink 在运行时本身也支持迭代算法的执行。本文简要介绍了(单机与集群模式)Flink的安装以及基本编程方法

Flink 中KeyBy、分区、分组的正确理解

数据具体去往哪个分区,是通过指定的 key 值先进行一次 hash 再进行一次 murmurHash,通过上述计算得到的值再与并行度进行相应的计算得到。在Flink中,KeyBy作为我们常用的一个聚合类型算子,它可以按照相同的Key对数据进行重新分区,分区之后分配到对应的子任务当中去。Flink中的

企业数字化过程中数据仓库与商业智能的目标

显然,需要一整套的技能,这些技能既包括数据库管理的技能,也包括商业分析师的技能,才能更好地适应DW/BI的商业盛筵。精心组织不同来源的数据,实现数据清洗,确保质量,只有在数据真正适合用户的需要时发布。对操作型系统来说,用户无法对其加以选择,只能使用新系统,而对DW/BI系统来说,与操作型系统不同的是

Hadoop相关知识点

hdfs dfs -put ~/input/file.txt /test 和 hdfs dfs -put /input/file.txt /test 的区别在于文件的来源路径。B. 维护HDFS集群的所有数据块的分布、副本数和负载均衡:NameNode记录每个数据块的位置和副本信息,并负责管理数据块

登录可以使用的更多功能哦! 登录
作者榜
...
资讯小助手

资讯同步

...
内容小助手

文章同步

...
Deephub

公众号:deephub-imba

...
奕凯

公众号:奕凯的技术栈