大数据 - overfit.cn

初识Spark

Apache的顶级项目，用于大规模数据处理的统一分析引擎。支持语言：Java、Scala、Python和R (源码为Scala)高级工具：1、SparkSQL用于SQL和结构化数据处理2、提供Pandas API 可提供在 Apache Spark 上运行的、与 Pandas 等效的 API，从而填

overfit同步小助手 2024-07-13 07:03:23 0 收藏

Kafka消费者组

overfit同步小助手 2024-07-13 06:03:45 0 收藏

Kafka的化学物质与环境数据分析

在当今工业化的社会背景下，人类活动对自然环境产生了深远的影响。污染已成为全球关注的重大问题之一。特别是空气和水体污染，不仅威胁着生态平衡，也直接影响了人类健康。为了有效监测并管理这些污染物，科学家们开发了一系列先进的技术和方法，其中一种引人瞩目的方式是利用Kafka作为数据收集和传输的核心组件。本文

overfit同步小助手 2024-07-13 03:03:52 0 收藏

搭建单机版的hadoop ,spark和scala服务器

将 mapred-site.xml.template 复制一份为 mapred-site.xml，再配置 mapred-site.xml。export JAVA_HOME=/usr/local/src/jdk1.8.0_152 #指定jdk位置如没有需下载。使用source /etc/profil

overfit同步小助手 2024-07-13 01:03:27 0 收藏

14-pyspark的DataFrame使用总结

PySpark实战笔记系列第五篇：DataFrame使用总结

overfit同步小助手 2024-07-13 00:03:57 0 收藏

【scau大数据原理】期末复习——堂测题

在Hadoop中，Map任务的数量通常是由输入文件被切分成的Split数量决定的。bin文件夹下包含常见的Hadoop,yarn命令；先启动文件系统start-dfs.sh，然后启动计算相关start-yarn.sh。～表示用户的HOME目录；修改/etc/profile需要root用户操作；Map

overfit同步小助手 2024-07-13 00:03:50 0 收藏

hadoop各组件工作流程分析

conbineTextInputFormat切片机制。将大量的小文件合并成一个大的Map Task的过程。虚拟存储过程切片过程。

overfit同步小助手 2024-07-12 23:03:50 0 收藏

Spark SQL内置函数

Apache Spark SQL 提供了一组丰富的内置函数（或称为UDFs，用户定义函数），用于在查询时处理数据。这些函数涵盖了字符串操作、日期/时间处理、数学运算、聚合等多个方面。upper(str)lower(str)trim(str)abs(num)floor(num)ceil(num)sqr

overfit同步小助手 2024-07-12 23:03:41 0 收藏

查询Kafka生产者是否连接到Kafka服务

java领域优质创作者🌐。

overfit同步小助手 2024-07-12 23:03:21 0 收藏

hive连续登录问题总结

select t2.*,date_sub(t2.datestr,rn) as grp from(select t1.*,row_number() over(partition by t1.id order by t1.datestr) as rn from (select id,datestr,su

overfit同步小助手 2024-07-12 22:03:54 0 收藏

使用ZooKeeper实现分布式锁

ZooKeeper是一个高性能的分布式协调服务，提供了诸如配置管理、命名服务、分布式锁等功能。ZooKeeper通过维护一个具有层次结构的数据结构（类似于文件系统），来管理分布式应用程序的状态。本文介绍了使用ZooKeeper实现分布式锁的基本原理和步骤，并给出了相应的Java代码示例。在实际应用中

overfit同步小助手 2024-07-12 22:03:40 0 收藏

eureka自我保护机制

Eureka自我保护机制是Eureka注册中心的一种安全保护措施，用于应对网络异常波动的情况。通过自我保护机制，Eureka Server能够更加健壮和稳定地运行，有效应对网络异常导致部分节点失联的情况。相比于ZooKeeper等其他注册中心，Eureka的自我保护机制能够避免整个集群因为部分节点失

overfit同步小助手 2024-07-12 21:03:44 0 收藏

RabbitMQ-死信队列常见用法

在RabbitMQ 中充当主角的就是消息，在不同场景下，消息会有不同地表现。死信就是消息在特定场景下的一种表现形式，这些场景包括：1. 消息被拒绝访问，即 RabbitMQ返回 basicNack 的信号时或者拒绝basicReject2. 消费者发生异常，超过重试次数。其实spring框架调用的

overfit同步小助手 2024-07-12 20:03:45 0 收藏

hive搭建完整教学

Hive是一个建立在Hadoop上的数据仓库工具，它提供了一个类似于SQL的查询语言来分析大规模数据。1. 处理大规模数据高效能够处理TB至PB级数据，并优化MapReduce任务以提高效率。2.高可扩展性和容错性利用Hadoop生态系统实现高效扩展，支持大规模并行计算。3.数据管理与存储提供表、分

overfit同步小助手 2024-07-12 18:03:43 0 收藏

深入解析大数据核心概念：数据平台、数据中台、数据湖与数据仓库的异同与应用

数据平台是一个综合性的技术框架，旨在支持整个数据生命周期的管理和使用。它包含数据采集、存储、处理、分析和可视化等多个环节。

overfit同步小助手 2024-07-12 18:03:10 0 收藏

部署Spark&PySpark简易教程

本教程是Spark和PySpark简易安装教程。需要已安装Hadoop。注意Spark版本要与Hadoop版本兼容。本文使用Spark3和Haoodp3。操作系统为CentOS7，jdk为1.8。

overfit同步小助手 2024-07-12 17:04:01 0 收藏

Docker容器搭建Hadoop集群(hadoop-3.1.3)

Docker容器环境下搭建Hadoop集群（完全分布式）hadoop版本为hadoop-3.1.3

overfit同步小助手 2024-07-12 17:03:55 0 收藏

【大数据】什么是数据融合（Data Fusion)?

本文旨在介绍什么是数据融合以及数据融合的类型、挑战、方法和关键环节。

overfit同步小助手 2024-07-12 17:03:28 0 收藏

Kafka未来趋势：云原生与边缘计算

Kafka未来趋势：云原生与边缘计算1. 背景介绍在数据驱动的时代，Apache Kafka已经成为企业中数据流动的关键组件。作为一个分布式流处理平台，Kafka允许实时数据的收集、存储、处理和分析。随着云计算和边缘计算的兴起，Kafka的应用场景和架构也在不断演进。云原生的概念推

overfit同步小助手 2024-07-12 16:03:49 0 收藏

大数据基础：Hadoop之HDFS重点架构原理

Hadoop Distributed File System - 分布式文件存储系统，解决海量数据存储问题。

overfit同步小助手 2024-07-12 16:03:21 0 收藏