大数据 - overfit.cn

Linux系统上Hadoop和Spark的配置

LINUX上安装hadoop-3.1.1和spark-3.1.1并配置伪分布式

overfit同步小助手 2024-09-10 17:03:53 0 收藏

CDH集成Paimon+flink+hive的测试联调

Apache Paimon是一种湖格式，可以通过Flink和Spark构建实时Lakehouse架构，用于流式和批处理操作。Paimon创新地结合了湖格式和LSM（日志结构合并树）结构，将实时流式更新引入湖架构。

overfit同步小助手 2024-09-10 17:03:28 0 收藏

Spark-Job启动、Stage划分

1、线性解析程序中的代码，遇到Action算子调用SparkContext的runJob()，有几个Action算子就会产生几个Job2、转交给DAGScheduler提交Job3、DAGScheduler先为调用Action算子的RDD创建一个ResultStage。

overfit同步小助手 2024-09-10 15:03:41 0 收藏

2024年7月117篇代码大模型论文最全整理

干货满满~

overfit同步小助手 2024-09-10 15:03:35 0 收藏

大数据Flink（一百一十五）：Flink SQL的基本概念

因为这个表的元数据没有被持久化。那么在这个 Flink session 中，你的任务访问到这个表时，访问到的永远是临时表（即相同名称的表，临时表会屏蔽永久表）。在这个作业中，订单表作为驱动源表输入，用户信息表作为静态维表，统计结果表作为作业最终输出。表可以是临时的，并与单个 Flink sessio

overfit同步小助手 2024-09-10 14:03:54 0 收藏

23篇大数据系列（二）scala基础知识全集（史上最全，建议收藏）

最近几十年，高速发展的互联网，渗透进了我们生活的方方面面，整个人类社会都已经被互联网连接为一体。身处互联网之中，我们无时无刻不在产生大量数据，如浏览商品的记录、成交订单记录、观看视频的数据、浏览过的网页、搜索过的关键词、点击过的广告、朋友圈的自拍和状态等。这些数据，既是我们行为留下的痕迹，同时也是描

overfit同步小助手 2024-09-10 14:03:48 0 收藏

探索HbaseGUI：一款强大的Hbase可视化工具

探索HbaseGUI：一款强大的Hbase可视化工具 HbaseGUIHbaseGUI项目地址:https://gitcode.com/gh_mirrors/hb/HbaseGUI 项目介绍HbaseGUI是一款专为Hbase数据库设计的可视化工具，通过Hbase-client直接操作Hbase，为

overfit同步小助手 2024-09-10 14:03:34 0 收藏

Debezium+Kafka：Oracle 11g 数据实时同步至 DolphinDB 运维手册

之前为大家介绍了如何通过 Debezium 与 Kafka 的组合实现从 Oracle 11g 到 DolphinDB 的数据同步。由于该过程涉及到多个程序的部署，而且具体的 Source 同步任务和 Sink 同步任务还需要额外管理，在运维上具有一定难度，因此我们推出了续篇，详细介绍该数据同步场景

overfit同步小助手 2024-09-10 13:03:59 0 收藏

Apache Spark：Spark项目实战：大数据分析案例

Spark Streaming 的核心概念是 DStream（Discretized Stream），它是 Spark Streaming 中数据流的抽象表示，可以看作是随时间推移的 RDD 序列。在大数据分析中，Apache Spark 提供了 Spark SQL 模块，它允许用户以 SQL 的形

overfit同步小助手 2024-09-10 13:03:56 0 收藏

Zookeeper节点宕机如何处理？

Zookeeper集群凭借其多节点配置，确保了系统的高可用性。当面临节点宕机时，集群内部机制将自动介入，以保持服务的稳定性和连续性。

overfit同步小助手 2024-09-10 13:03:50 0 收藏

基于大数据的网络舆情分析系统的设计与实现

网络舆情作为衡量公众情绪和社会动态的风向标，其快速准确分析对于政府决策、企业声誉管理等具有重大意义。面对海量、快速更迭的数据，传统的手工分析方式显得力不从心，亟需技术革新。先利用Python强大的数据处理能力，结合网络爬虫技术，从各大社交平台、新闻网站等源头抓取数据。接着，通过`Scikit-lea

overfit同步小助手 2024-09-10 12:03:48 0 收藏

Kafka消息队列

普通版消息队列说白了就是一个队列,生产者生产多少,放在消息队列中存储,而消费者想要多少拿多少,按序列号消费那么Kafka如何改进普通版的消息队列随着生产者和消费者都变多，我们会发现它们会同时争抢同一个消息队列，抢不到的一方就得等待，这不纯纯浪费时间吗！有解决方案吗？有！首先是对消息进行分类，每一类是

overfit同步小助手 2024-09-10 12:03:29 0 收藏

发现数据流转的新天地：Kafka Connect for TableStore 深度探索

发现数据流转的新天地：Kafka Connect for TableStore 深度探索 kafka-connect-tablestore项目地址:https://gitcode.com/gh_mirrors/ka/kafka-connect-tablestore 在当今大数据洪流中，高效、可靠地管

overfit同步小助手 2024-09-10 10:03:52 0 收藏

使用es-hadoop同步hive和es之间数据

💻近期在华为云连接es时的时候发现不能输入账号密码，后面联系华为工程师了解到，华为云默认是非安全模式，即不需要输入账号密码。解决方案，如下：前言ES-Hadoop 是 Elastic 官方推出的一个用于对接 Hadoop 生态的工具，使得用户可以使用 Mapreduce(MR)、Spark、Hiv

overfit同步小助手 2024-09-10 10:03:48 0 收藏

RabbitMQ实现多线程处理接收消息

在使用@RabbitListener注解来指定消费方法的时候，默认情况是单线程去监听队列，但是这个如果在高并发的场景中会出现很多个任务，但是每次只消费一个消息，就会很缓慢。单线程处理消息容易引起消息处理缓慢，消息堆积，不能最大利用硬件资源，这个就很伤。

overfit同步小助手 2024-09-10 10:03:36 0 收藏

RabbitMQ 入门：基本概念、特性及简单示例

RabbitMQ 是一个开源的消息代理和队列服务器，用 Erlang 语言编写。它支持多种消息协议，包括 AMQP 0-9-1，并提供了可靠性、灵活的路由、消息持久性等功能。RabbitMQ 是易于使用的，支持多种编程语言，包括 Python、Ruby、Java、JavaScript、PHP、.NE

overfit同步小助手 2024-09-10 10:03:26 0 收藏

Eureka原理实践

Eureka源于Netflix的微服务架构，目的是为了解决大规模分布式系统中的服务注册与发现问题。随着微服务的快速发展，越来越多的服务需要相互调用，这要求开发者能够快速、准确地找到所需的服务。

overfit同步小助手 2024-09-10 09:07:01 0 收藏

【大数据】分布式计算框架算法

分布式计算框架算法是为了解决大规模数据处理问题而设计的一系列算法。这些算法能够在多台计算机上分布执行计算任务，通过网络连接协同工作，从而提高数据处理速度和效率。常见的分布式计算框架包括Hadoop、Spark等。

overfit同步小助手 2024-09-10 08:04:07 0 收藏

在线编程实现！如何在Java后端通过DockerClient操作Docker生成python环境

本篇文章（含在线编程案例）将带大家来看看如何使用DockerClient操作Docker生成python环境，该思路同样适用于所有在线编程的开发过程。

overfit同步小助手 2024-09-10 08:03:49 0 收藏

熟悉Kafka组成模块、Kafka消息提交的方式及优缺点

的消息系统，如果按常理来设计，大家是不是把消息发送者的消息直接发送给消息消费者？但Kafka并不是这么设计的，Kafka消息的生产者会对消息进行分类，再发送给中间的消息服务系统，而消息消费者通过订阅某分类的消息去接受特定类型的消息。每一个主题下的消息都需要提交到Broker的磁盘里，假如我们搭建了三

overfit同步小助手 2024-09-10 08:03:44 0 收藏