大数据 - overfit.cn

Kafka学习-Java使用Kafka

Kafka是Apache旗下的一款分布式流媒体平台，Kafka是一种高吞吐量、持久性、分布式的发布订阅的消息队列系统。它被广泛应用于实时数据流处理、日志收集和处理以及消息队列等场景。本文将深入介绍Kafka的概念、原理、作用和应用场景。

overfit同步小助手 2024-06-02 05:03:35 0 收藏

hive客户端连接

主题：是一个抽象的概念，数据综合体，一个分析的主题可以对应多个数据源，在数仓的开展分析中，首先确定分析的主题，然后基于主题寻找，采集跟主题相关的数据。特点：服务于分析，要能应对海量数据的存储和数据计算，对于响应速度要求不高没我们很少修改数据，所以也不需要对数据的一致性，安全性进行考虑。ODS：源数据

overfit同步小助手 2024-06-02 04:04:38 0 收藏

HBaseJavaAPI详解：基本操作与高级特性

1.背景介绍1. 背景介绍HBase是一个分布式、可扩展、高性能的列式存储系统，基于Google的Bigtable设计。它是Hadoop生态系统的一部分，可以与HDFS、MapReduce、ZooKeeper等组件集成。HBase提供了高速随机读写访问，适用于存储大量数据的场景。Java是HBase

overfit同步小助手 2024-06-02 04:04:35 0 收藏

PySpark数据分析基础：PySpark基础功能及DataFrame操作基础语法详解_pyspark rdd(2)

这里的批处理引擎是Spark Core，也就是把Spark Streaming的输入数据按照batch size（如1秒）分成一段一段的数据（Discretized Stream），每一段数据都转换成Spark中的RDD（Resilient Distributed Dataset），然后将Spark

overfit同步小助手 2024-06-02 03:03:50 0 收藏

大数据程序员必会之Spark框架上的实时流计算框架SparkStreaming

如今在大数据的世界里，Spark可谓是众所周知，风光无限了。在批处理领域取得巨大成功后，Spark开始向流计算领域进军，于是诞生了Spark Streaming。Spark Streaming是建立在，提供了可扩展、高吞吐和错误容忍的实时数据流处理功能。

overfit同步小助手 2024-06-02 02:03:38 0 收藏

docker报错：Docker Desktop - WSL distro terminated abruptly

这个问题的出现，还可能是网络的原因造成的安装失败，解决了网络，问题也就解决了。

overfit同步小助手 2024-06-02 01:04:02 0 收藏

Kafka效率篇-提升效率三板斧

总结一下本文的大致内容，主要解释了kafka如何提高效率的，主要解决了小型IO和大量的字节拷贝问题。小型IO的问题，kafka的解法是转微批的方式。字节拷贝问题，kafka利用了零拷贝技术实现，减少了数据的重复拷贝问题，但目前还没做到真正的“零拷贝”。利用压缩技术，使的网络带宽能够更高效的使用。后续

overfit同步小助手 2024-06-02 01:03:58 0 收藏

【jeecg大数据导出Excel以及优化】

jeecg大数据导出

overfit同步小助手 2024-06-02 01:03:36 0 收藏

修正版本 6.3.2 CHD 超详细！搭建本地大数据研发环境（16G内存+CDH）易错见红字

工欲善其事必先利其器，在经过大量的理论学习以后，需要有一个本地的研发环境来进行练手。已经工作的可以不依赖于公司的环境，在家也可以随意的练习。而自学大数据的同学，也可以进行本地练习，大数据是一门偏实践的学科，在找工作之前进行一些实践操作，也更利于对大数据知识的理解。本文将从头开始详细的记录整个大数据环

overfit同步小助手 2024-06-02 00:03:47 0 收藏

如何在IDEA IDE 开发环境中直接以 Yarn 方式提交Spark 代码到远端 Yarn集群运行

IDEA IDE 中直接以Yarn 方式调试Spark 程序，无需打包上传

overfit同步小助手 2024-06-02 00:03:39 0 收藏

hive解析json_hive json解析函数

发知识点，真正体系化！**

overfit同步小助手 2024-06-01 23:03:44 0 收藏

Nacos与Eureka的使用与区别

Ribbon负载均衡规则规则接口是IRule默认实现是ZoneAvoidanceRule，根据zone选择服务列表，然后轮询负载均衡自定义方式代码方式：配置灵活，但修改时需要重新打包发布配置方式：直观，方便，无需重新打包发布，但是无法做全局配置饥饿加载开启饥饿加载指定饥饿加载的微服务名称。

overfit同步小助手 2024-06-01 22:03:47 0 收藏

Hive 之 UDF 运用（包会的）

Hive 支持两种 UDF 函数自定义操作，分别是：GenericUDF（通用UDF）：用于实现那些可以处理任意数据类型的函数。它们的输入和输出类型可以是任意的，但需要在函数内部处理类型转换和逻辑，可以实现更复杂的逻辑处理。UDF：用于实现那些只能处理特定数据类型的函数。每个 UDF 都明确指定了输

overfit同步小助手 2024-06-01 22:03:37 0 收藏

大数据下的精准营销策略研究

大数据下的精准营销策略研究1.背景介绍1.1 精准营销的重要性在当今竞争激烈的商业环境中,精准营销已成为企业获取更多客户、提高销售业绩和增强品牌知名度的关键策略。传统的大规模营销方式已经难以满足现代消费者个性化和定制化的需求。相比之下,精准

overfit同步小助手 2024-06-01 21:03:52 0 收藏

Hadoop复习（上）

系统启动，读取fsimage和edis至内存，形成内存元数据meta data， client向NameNode发起数据增删查请求，NameNode在接受请求后在内存元数据中执行操作，并返回结果给client,如果是增删操作，则同时记录数据操作日志edits。Container启动后，用于执行用户的

overfit同步小助手 2024-06-01 21:03:47 0 收藏

Rabbitmq怎么保证消息的可靠性?

消费者在接收到消息后，默认情况下RabbitMQ会自动确认消息（autoAck=true）。为保证消息可靠性，可以设置autoAck=false，使得消费者在处理完消息后手动发送确认（basicAck）。如果消费者在处理过程中发生异常或者未完成处理就终止运行，那么消息在超时时间内将不会被删除，会再次

overfit同步小助手 2024-06-01 18:03:49 0 收藏

MQ 及 Kafka 相关组件简介

Kafka 是由 Apache 软件基金会开发的一个开源流处理平台，由 Scala 和 Java 编写，Kafka是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者在网站中的所有动作流数据。对于像Hadoop一样的日志数据和离线分析系统，但又要求实时处理的限制，这是一个可行的解决方案。Ka

overfit同步小助手 2024-06-01 16:03:55 0 收藏

hive表基本语法

overfit同步小助手 2024-06-01 16:03:12 0 收藏

Kafka 消费端消费重试和死信队列

前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站，这篇文章男女通用，看懂了就去分享给你的码吧。Spring-Kafka 提供消费重试的机制。当消息消费失败的时候，Spring-Kafka 会通过消费重试机制，重新投递该消息给 Consumer ，让 C

overfit同步小助手 2024-06-01 15:04:02 0 收藏

Hive中的复杂数据类型 - array、map、struct

Hive中的复杂数据类型，学会如何使用，如何指定字段为struct类型？如何向struct类型的字段中插入数据？如何取出struct字段中的值？

overfit同步小助手 2024-06-01 14:03:46 0 收藏