大数据 - overfit.cn

【Spark】What is the difference between Input and Shuffle Read

保持每个task的 input + shuffle read 量在300-500M左右比较合适。Spark调参过程中。

overfit同步小助手 2023-11-19 02:03:35 0 收藏

大数据之LibrA数据库系统告警处理（ALM-12007 进程故障）

进程健康检查模块按5秒周期检测进程状态。当进程健康检查模块连续三次检测到进程连接状态为故障时，产生该告警。说明：如果同一时间段，存在大量的进程故障告警，则可能存在安装目录文件被误删除或者权限被修改。当进程连接正常时，告警恢复。该进程提供的业务不可用。产生告警的服务名称。产生告警的角色名称。

overfit同步小助手 2023-11-18 23:03:29 0 收藏

hadoop datanode无法启动

datanode无法启动报错问题及解决方法

overfit同步小助手 2023-11-18 21:03:27 0 收藏

21、Flink 的table API与DataStream API 集成（完整版）

1、Flink 部署、概念介绍、source、transformation、sink使用示例、四大基石介绍和示例等系列综合文章链接13、Flink 的table api与sql的基本概念、通用api介绍及入门示例14、Flink 的table api与sql之数据类型: 内置数据类型以及它们的属性1

overfit同步小助手 2023-11-18 20:03:34 0 收藏

RabbitMQ消费者的可靠性

RabbitMQ提供了消费者确认机制（Consumer Acknowledgement）。即：当消费者处理消息结束后，应该向RabbitMQ发送一个回执，告知RabbitMQ自己消息处理状态。回执有三种可选值：ack：成功处理消息，RabbitMQ从队列中删除该消息nack：消息处理失败，Rabbi

overfit同步小助手 2023-11-18 20:03:21 0 收藏

Kettle组件介绍

转换里面有个DB连接，新建连接之后共享这个连接。

overfit同步小助手 2023-11-18 19:03:48 0 收藏

在windows上安装 onlyoffice-documentserver.exefor Windows

是一个在线办公套件，包括文本，电子表格和演示文稿的查看器和编辑器，完全兼容Office Open XML格式：.docx，.xlsx，.pptx，并支持实时协作编辑。

overfit同步小助手 2023-11-18 19:03:37 0 收藏

MySQL安装与环境搭建——超详细教程

本章详细写了mysql的安装，环境的搭建以及安装时常见的问题和解决办法。

overfit同步小助手 2023-11-18 19:03:24 0 收藏

年度顶级赛事来袭：2023 CCF大数据与计算智能大赛首批赛题上线！

年度顶级赛事强势来袭，首批赛题重磅上线！2023 CCF BDCI 大赛，等你挑战！

overfit同步小助手 2023-11-18 17:03:45 0 收藏

kafka消费者程序日志报错Offset commit failed问题研究

overfit同步小助手 2023-11-18 17:03:29 0 收藏

zookeeper源码(02)源码编译启动及idea导入

本文将详细介绍zookeeper源码下载、编译及本地启动，使用3.9.0版本

overfit同步小助手 2023-11-18 16:03:17 0 收藏

【Zookeeper】介绍与配置

1.0

overfit同步小助手 2023-11-18 16:03:10 0 收藏

【大数据】什么是Flink？Flink能用来做什么？

Apache Flink 是一个框架和分布式处理引擎，用于在无边界和有边界数据流上进行有状态的计算。Flink 能在所有常见集群环境中运行，并能以内存速度和任意规模进行计算。Apache Flink 功能强大，支持开发和运行多种不同种类的应用程序。它的主要特性包括：批流一体化、精密的状态管理、事件时

overfit同步小助手 2023-11-18 15:03:44 0 收藏

RabbitMQ 消息中间件消息队列

RabbiMQ是⽤Erang开发的，集群⾮常⽅便，因为Erlang天⽣就是⼀⻔分布式语⾔，但其本身并不⽀持负载均衡。支持高并发，支持可扩展。支持AJAX，持久化，用于在分布式系统中存储转发消息，在易用性、扩展性、高可用性等方面表现不俗。 MQ 全称为Message Queue,。是一

overfit同步小助手 2023-11-18 14:03:48 0 收藏

kafka日志文件详解及生产常见问题总结

日志文件是kafka根目录下的config/server.properties文件，配置log.dirs=/usr/local/kafka/kafka-logs，kafka一部分数据包含当前Broker节点的消息数据(在Kafka中称为Log日志)，称为无状态数据，另外一部分存在zookeeper上

overfit同步小助手 2023-11-18 12:03:14 0 收藏

Spark优化大全总结含泪实操,含数据格式/数据倾斜/算子优化/Join优化/参数调优等

Spark优化总结大全,含数据格式/数据倾斜/算子优化/Join优化/参数调优等,spark任务重RDD持久化数据在Executor内存中占用比例为60%,当数据量较大内存放不下时,就会溢写到磁盘,如果spark任务中有较多需持久化的RDD,建议调大此参,避免内存不足时数据只能写磁盘的情况.若没有或

overfit同步小助手 2023-11-18 11:03:34 0 收藏

Kafka的重要组件，谈谈流处理引擎Kafka Stream

今天我们学了一些关于Kafka Stream的内容太，知道了它是一种流处理引擎，可以消费Kafka中的数据，进行处理后，还能其转换为输出流。它特点在于不需要额外征用集群资源、易于使用、支持丰富的转换操作。使用场景包括实时数据分析、实时预测等

overfit同步小助手 2023-11-18 08:03:20 0 收藏

Apache Spark 的基本概念和在大数据分析中的应用

它可以用于处理结构化数据、半结构化数据和非结构化数据，并可以从多个数据源集成数据。这使得它成为处理大规模数据的理想平台。Spark SQL：Spark SQL是用于在Spark中处理结构化数据的特殊模块。Apache Spark是一种快速、分布式的计算引擎，具有高度的可扩展性，能够以高效的方式处理大

overfit同步小助手 2023-11-18 07:03:45 0 收藏

【Spark】配置参数关系-重要

eg：资源配置10个Executor节点，每个节点2个Core，那么同一时间可以并行计算的task数为20，如果RDD有2个分区，那么计算时只使用2个Core，其余18个Core空转，浪费资源，每个Executor中的一个Core（线程，虚拟核数）同时只能执行一个Task，所以Spark调优中会通过

overfit同步小助手 2023-11-18 07:03:42 0 收藏

大数据处理技术作业——使用HBase&MongoDB&MapReduce进行数据存储和管理

【1．列出数据的下载链接，或者说明数据的采集方法。2．概述数据的背景与内容。3．概述数据的 Volume和 Variety。】本次作业的原始数据是在 kaggle 上找的开源的亚马逊餐饮评论数据集，数据集是由几个学者共同收集的，该数据集包含对亚马逊不同美食的评论。数据跨度超过 10 年，包括截至 2

overfit同步小助手 2023-11-18 07:03:39 0 收藏