大数据 - overfit.cn

面试专区|【100道Spark高频题整理(附答案背诵版)】

Spark 是一个开源的大数据处理框架，它被设计来进行高速度、通用性和易用性的大规模数据处理。Spark 最初由加州大学伯克利分校的AMPLab 开发，后来成为Apache软件基金会的顶级项目。快速性：Spark 使用了内存计算技术，相较于Hadoop的MapReduce，它能更快地处理大规模数据集

overfit同步小助手 2024-08-06 23:03:10 0 收藏

全国职业院校技能大赛-大数据应用赛项-Hadoop-HA

本任务需要使用root用户完成相关配置，安装Hadoop需要配置前置环境。

overfit同步小助手 2024-08-06 22:03:51 0 收藏

Hive常用内置函数合集

Hive常用函数合集

overfit同步小助手 2024-08-06 22:03:41 0 收藏

Flink之keyBy操作

在Flink中，‌当我们需要对海量数据进行聚合处理时，‌通常会先进行分区，‌以提高处理效率。‌通过keyBy操作，‌我们可以根据指定的键将数据流划分为不同的分区，‌每个分区内的数据将发送到同一个分区进行处理。‌这种分区的方式是通过计算键的哈希值，‌并通过对分区数取模运算来实现的。‌因此，‌具有相同键

overfit同步小助手 2024-08-06 21:03:46 0 收藏

Hadoop_hdfs介绍

Hadoop 是一个开源框架，由 Apache Software Foundation 开发和维护，用于分布式存储和处理大规模数据集。Hadoop 允许用户通过简单的编程模型跨大型集群分布式处理大量数据。它特别适用于大数据应用，可以处理数千台服务器上的 PB 级数据。

overfit同步小助手 2024-08-06 21:03:32 0 收藏

大数据最新FlinkCDC全量及增量采集SqlServer数据_flink cdc sql server

TABLE_CATALOG TABLE_SCHEMA TABLE_NAME TABLE_TYPEtest dbo user_info BASE TABLEtest dbo systranschem

overfit同步小助手 2024-08-06 21:03:07 0 收藏

Hive/Spark窗口函数

结果中，对于每一行的last_value的结果都是当前值，并不分区中按salary升序的最后一个值。前面在提到last_value时，特意强调了该函数的结果并不是分区中的最后一个值，结合上述介绍的window specification再来看下该函数的结果值。注意，默认情况下last_value取的

overfit同步小助手 2024-08-06 20:04:01 0 收藏

Spark概述及Scala搭建操作步骤

现在Apache Spark已经形成一个丰富的生态圈，包括官方和第三方开发的组件或工具。Spark生态圈也称为伯克利数据分析栈，由AMPLab打造，是致力于在算法，机器，人之间通过大规模集成展现大数据应用的平台。1.Spark Core：spark的核心，提供底层框架及核心支持。2.BlinkDB:

overfit同步小助手 2024-08-06 20:03:40 0 收藏

Hadoop3.3.6完全分布式集群【三个节点】的安装配置

hadoop3.3.6完全分布式集群部署，三个节点配置

overfit同步小助手 2024-08-06 20:03:37 0 收藏

Spark DAG原理与代码实例讲解

Spark DAG原理与代码实例讲解1. 背景介绍1.1 大数据处理的挑战在大数据时代,我们面临着海量数据处理的巨大挑战。传统的数据处理方式已经无法满足实时性、高吞吐量的需求。Spark作为一个快速、通用的大规模数据处理引擎,为

overfit同步小助手 2024-08-06 19:03:54 0 收藏

智慧党建大数据具体都有什么功能？

未来，随着大数据技术的不断发展和应用，智慧党建将进一步提高党组织的管理水平和工作效率，为党的建设和发展提供更有力的支持和保障。智慧党建大数据通过收集、存储、分析和挖掘党建相关数据，实现了对党建工作的全面支持和优化。2.移动应用：开发智慧党建移动应用，方便党员随时随地参与党建活动和学习，提高党建工作的

overfit同步小助手 2024-08-06 19:03:30 0 收藏

Hbase实战处理（一）关于hbase的表设计和集成

hbase集群的HA配置（假如有3台机器（同时是regionserver角色），master、slaver1、slaver2）stop-hbase.sh cd /home/hadoop-twq/bigdata/hbase-1.2.6/conf vi backup-masters 在master机器上

overfit同步小助手 2024-08-06 19:03:27 0 收藏

Kafka 典型问题与排查以及相关优化

Kafka 是一个高吞吐量的分布式消息系统，但在实际应用中，用户经常会遇到一些性能问题和消息堆积的问题。本文将介绍 Kafka 中一些典型问题的原因和排查方法，帮助用户解决问题并优化 Kafka 集群的性能。

overfit同步小助手 2024-08-06 18:03:45 0 收藏

面向大数据的分布式计算框架：Apache Arrow的高性能数据存储

1.背景介绍大数据时代，数据量越来越大，传统的数据处理方法已经不能满足需求。分布式计算框架成为了解决大数据问题的重要手段。Apache Arrow 是一种高性能的数据存储和处理框架，专为分布式计算环境设计。它通过提供一种高效的内存布局和数据结构，以及一种跨语言的数据交换格式，来帮助开发者更高效地处理

overfit同步小助手 2024-08-06 17:03:42 0 收藏

Hadoop3.3.4 + HDFS Router-Based Federation配置

HDFS Router-based Federation 3.34

overfit同步小助手 2024-08-06 16:03:50 0 收藏

07. ELK架构-ELKF+Kafka

由于每次去oracle下载JDK都要登录密码，此次上传的JDK1.8版本。elk-node-01和elk-node-02节点执行。elk-node-03节点执行。elk-node-03节点执行。

overfit同步小助手 2024-08-06 15:03:58 0 收藏

Spark复习

spark在内存中的运行速度是Hadoop mapreduce 运行速度的100多倍，spark在磁盘中的运行速度是Hadoop mapreduce运行速度的10多倍。spark用内存，Hadoop mapreduce用硬盘。spark支持使用Scala、python、java、R等语言快速编写应用

overfit同步小助手 2024-08-06 15:03:55 0 收藏

Eureka: Netflix开源的服务发现框架

在微服务架构中，服务发现是一个关键组件，它允许服务实例之间相互发现并进行通信。Eureka是由Netflix开源的服务发现框架，它是Spring Cloud体系中的核心组件之一。Eureka提供了服务注册与发现的功能，支持区域感知和自我保护机制，确保了微服务架构的高可用性。本文将介绍Eureka的基

overfit同步小助手 2024-08-06 15:03:52 0 收藏

RabbitMQ的工作模式

overfit同步小助手 2024-08-06 15:03:46 0 收藏

Hadoop搭建集群

Hadoop集群部署是为了实现分布式存储和计算，提高大数据处理的效率和性能。1.确定集群规模和硬件资源，选择合适的操作系统和Hadoop版本，进行网络配置，确保集群内各节点之间可以互相通信。2.设置各节点的环境变量，安装和配置Java环境以及其他必要的软件和工具。3.配置Hadoop的核心组件（如H

overfit同步小助手 2024-08-06 12:03:46 0 收藏