大数据 - overfit.cn

CDH大数据平台入门篇之搭建与部署

CDH：存储各种类型的数据、使用各种不同的计算框架进行操作、能够快速集成和运行一个完整的Hadoop平台，适用于各种不同的硬件和软件、高安全性且能够部署多种应用，并扩展和扩充它们以满足你的需求、还可以放心地用于关键的商业任务。

overfit同步小助手 2023-12-06 05:03:51 0 收藏

Hadoop集群安装部署

hadoop集群的搭建

overfit同步小助手 2023-12-06 03:03:43 0 收藏

sparksql源码系列 | 一文搞懂Show create table 执行原理

这篇文章主要介绍了show create table命令执行的源码流程，弄清楚了sparksql是怎么和hive元数据库交互，查询对应表的metadata，然后拼接成最终的结果展示给用户的

overfit同步小助手 2023-12-06 02:03:34 0 收藏

架构师必知必会系列：容器安全与容器漏洞管理

作者：禅与计算机程序设计艺术 1.简介容器漏洞是一个敏感的话题。由于容器技术的普及和社区成熟，越来越多的企业、组织将容器技术作为一种“云”服务进行应用部署、运维和管理，而容器成为一个“平台”，其潜在危险性也越来越高。因此，保护容器环境免受攻击并修补漏洞是非常重要

overfit同步小助手 2023-12-05 21:07:10 0 收藏

大数据SpringBoot项目——基于SpringBoot+Bootstrap框架的学生宿舍管理系统的设计与实现

该系统采用了基于Bootstrap的样式搭建的管理系统，后台采用SpringBoot框架和MySQL数据库,通过Java+javasript+jsp 语言编写，具有比较高的安全性，跨平台，很强的可移植性。学生可以非常方便查看宿舍信息、入住信息。宿舍管理员可以通过后台强大的信息修改功能进行更新，对楼宇

overfit同步小助手 2023-12-05 17:03:12 0 收藏

Spark内核

任务的最小单位是线程。失败重试，会记录失败的次数，如果超过最大重试次数，宣告Application失败。失败的同时会记录它上一次所在的ExecutorID和Host, 最多重试4次。落盘的话就需要考虑不同分区之间的数据如何存放的问题。假设每个Executor有两个Task，总共有三个分区。特点：无论

overfit同步小助手 2023-12-05 16:03:38 0 收藏

oracle递归查询connect by prior

oracle的start with connect by prior是条件递归查询，树结构

overfit同步小助手 2023-12-05 14:03:12 0 收藏

Win10 环境下 spark 本地环境的搭建

此电脑(右击)==>属性==>高级系统设置==>环境变量==>系统变量==>Path==>新建。此电脑(右击)==>属性==>高级系统设置==>环境变量==>系统变量==>Path==>新建。此电脑(右击)==>属性==>高级系统设置==>环境变量==>系统变量==>Path==>新建。下载 jdk

overfit同步小助手 2023-12-05 12:03:40 0 收藏

Flume 整合 Kafka

以实时流处理项目为例，由于采集的数据量可能存在峰值和峰谷，假设是一个电商项目，那么峰值通常出现在秒杀时，这时如果直接将 Flume 聚合后的数据输入到 Storm 等分布式计算框架中，可能就会超过集群的处理能力，这时采用 Kafka 就可以起到削峰的作用。Kafka 天生为大数据场景而设计，具有高吞

overfit同步小助手 2023-12-05 12:03:11 0 收藏

图解Spark Graphx基于connectedComponents函数实现连通图底层原理

overfit同步小助手 2023-12-05 10:03:35 0 收藏

Hadoop RPC简介

数新网络-让每个人享受数据的价值RPC（Remote Procedure Call）远程过程调用协议，一种通过网络从远程计算机上请求服务，而不需要了解底层网络技术的协议。RPC它假定某些协议的存在，例如TPC/UDP等，为通信程序之间携带信息数据。在OSI网络七层模型中，RPC跨越了传输层和应用层，

overfit同步小助手 2023-12-05 03:03:12 0 收藏

大数据技术原理与应用概念、存储、处理、分析和应用（林子雨）——第五章 NoSQL数据库

overfit同步小助手 2023-12-05 02:03:38 0 收藏

大数据智能决策系统架构：决策系统与自动驾驶

作者：禅与计算机程序设计艺术 1.简介自动驾驶、智能出行以及城市规划等领域，已经引起越来越多人的关注。如何快速、精准地解决这些复杂的问题，让智能出行产品的用户感到舒适、安全以及顺畅，是目前研究的热点。但是，如何将一个自动驾驶、智能出行、城市规划问题，转化成自动化

overfit同步小助手 2023-12-04 23:03:50 0 收藏

大数据组件-Flume集群环境搭建

Flume是一个分布式、可靠和高可用性的数据采集工具，用于将大量数据从各种源采集到Hadoop生态系统中进行处理。在大型互联网企业的数据处理任务中，Flume被广泛应用。Flume集群环境介绍：Agent：Flume的基本组成单元是Agent，用于在不同的节点之间传输数据。Agent可以是单节点或分

overfit同步小助手 2023-12-04 23:03:39 0 收藏

Flink Hive Catalog操作案例

在此对Flink读写Hive表操作进行逐步记录，需要指出的是，其中操作Hive分区表和非分区表的DDL有所不同，以下分别记录。

overfit同步小助手 2023-12-04 17:03:44 0 收藏

【数据集资源】大数据资源-数据集下载方法-汇总

数据集中的评价对象按照粒度不同划分为两个层次，层次一为粗粒度的评价对象，例如评论文本中涉及的服务、位置等要素；深证创业板日线数据，截止 2017.05.05，原始价、前复权价、后复权价，636支股票http://dataju.cn/Dataju/web/datasetInstanceDetail/3

overfit同步小助手 2023-12-04 16:03:50 0 收藏

Flink 的安装与基础编程

Apache Flink是一个分布式处理引擎，用于对无界和有界数据流进行有状态计算。Flink以数据并行和流水线方式执行任意流数据程序，它的流水线运行时系统可以执行批处理和流处理程序。此外，Flink 在运行时本身也支持迭代算法的执行。本文简要介绍了（单机与集群模式）Flink的安装以及基本编程方法

overfit同步小助手 2023-12-04 14:03:43 0 收藏

Flink 中KeyBy、分区、分组的正确理解

数据具体去往哪个分区，是通过指定的 key 值先进行一次 hash 再进行一次 murmurHash，通过上述计算得到的值再与并行度进行相应的计算得到。在Flink中，KeyBy作为我们常用的一个聚合类型算子，它可以按照相同的Key对数据进行重新分区，分区之后分配到对应的子任务当中去。Flink中的

overfit同步小助手 2023-12-04 11:03:32 0 收藏

企业数字化过程中数据仓库与商业智能的目标

显然，需要一整套的技能，这些技能既包括数据库管理的技能，也包括商业分析师的技能，才能更好地适应DW/BI的商业盛筵。精心组织不同来源的数据，实现数据清洗，确保质量，只有在数据真正适合用户的需要时发布。对操作型系统来说，用户无法对其加以选择，只能使用新系统，而对DW/BI系统来说，与操作型系统不同的是

overfit同步小助手 2023-12-04 03:03:46 0 收藏

Hadoop相关知识点

hdfs dfs -put ~/input/file.txt /test 和 hdfs dfs -put /input/file.txt /test 的区别在于文件的来源路径。B. 维护HDFS集群的所有数据块的分布、副本数和负载均衡：NameNode记录每个数据块的位置和副本信息，并负责管理数据块

overfit同步小助手 2023-12-04 00:03:48 0 收藏