大数据 - overfit.cn

kafka日志文件详解及生产常见问题总结

日志文件是kafka根目录下的config/server.properties文件，配置log.dirs=/usr/local/kafka/kafka-logs，kafka一部分数据包含当前Broker节点的消息数据(在Kafka中称为Log日志)，称为无状态数据，另外一部分存在zookeeper上

overfit同步小助手 2023-11-18 12:03:14 0 收藏

Spark优化大全总结含泪实操,含数据格式/数据倾斜/算子优化/Join优化/参数调优等

Spark优化总结大全,含数据格式/数据倾斜/算子优化/Join优化/参数调优等,spark任务重RDD持久化数据在Executor内存中占用比例为60%,当数据量较大内存放不下时,就会溢写到磁盘,如果spark任务中有较多需持久化的RDD,建议调大此参,避免内存不足时数据只能写磁盘的情况.若没有或

overfit同步小助手 2023-11-18 11:03:34 0 收藏

Kafka的重要组件，谈谈流处理引擎Kafka Stream

今天我们学了一些关于Kafka Stream的内容太，知道了它是一种流处理引擎，可以消费Kafka中的数据，进行处理后，还能其转换为输出流。它特点在于不需要额外征用集群资源、易于使用、支持丰富的转换操作。使用场景包括实时数据分析、实时预测等

overfit同步小助手 2023-11-18 08:03:20 0 收藏

Apache Spark 的基本概念和在大数据分析中的应用

它可以用于处理结构化数据、半结构化数据和非结构化数据，并可以从多个数据源集成数据。这使得它成为处理大规模数据的理想平台。Spark SQL：Spark SQL是用于在Spark中处理结构化数据的特殊模块。Apache Spark是一种快速、分布式的计算引擎，具有高度的可扩展性，能够以高效的方式处理大

overfit同步小助手 2023-11-18 07:03:45 0 收藏

【Spark】配置参数关系-重要

eg：资源配置10个Executor节点，每个节点2个Core，那么同一时间可以并行计算的task数为20，如果RDD有2个分区，那么计算时只使用2个Core，其余18个Core空转，浪费资源，每个Executor中的一个Core（线程，虚拟核数）同时只能执行一个Task，所以Spark调优中会通过

overfit同步小助手 2023-11-18 07:03:42 0 收藏

大数据处理技术作业——使用HBase&MongoDB&MapReduce进行数据存储和管理

【1．列出数据的下载链接，或者说明数据的采集方法。2．概述数据的背景与内容。3．概述数据的 Volume和 Variety。】本次作业的原始数据是在 kaggle 上找的开源的亚马逊餐饮评论数据集，数据集是由几个学者共同收集的，该数据集包含对亚马逊不同美食的评论。数据跨度超过 10 年，包括截至 2

overfit同步小助手 2023-11-18 07:03:39 0 收藏

RabbitMq介绍和使用

springboot+rabbitmq

overfit同步小助手 2023-11-18 06:03:46 0 收藏

RabbitMQ中的Routing Key是什么？它的作用是什么？

接下来，我们声明了一个名为"my_exchange"的交换机，并设置交换机的类型为"direct"，表示使用Routing Key进行消息路由。然后，我们声明了两个队列，分别是"my_queue_1"和"my_queue_2"。在RabbitMQ中，Exchange（交换机）负责接收来自生产者的消息

overfit同步小助手 2023-11-18 04:03:54 0 收藏

Elasticsearch的安装及使用，这一篇就够了

overfit同步小助手 2023-11-18 04:03:51 0 收藏

SpringCloud微服务：Eureka

服务提供者会每隔30秒向EurekaServer发送心跳请求，报告健康状态eureka会更新记录服务列表信息，心跳不正常会被剔除，消费者就可以拉取到最新的信息。1．在user-service项目引入spring-cloud-starter-netflix-eureka-client的依赖。1．创建项

overfit同步小助手 2023-11-18 03:03:37 0 收藏

Kafka生产者示例：发送JSON数据到Kafka Topic

Kafka生产者示例：发送JSON数据到Kafka TopicKafka是一个高性能、分布式的流处理平台，广泛应用于大数据领域。本文将深入浅出地介绍如何使用Kafka生产者发送JSON数据到Kafka Topic，并附带相应的源代码。

overfit同步小助手 2023-11-18 02:03:54 0 收藏

2023-Hive必备详细教程

overfit同步小助手 2023-11-18 02:03:51 0 收藏

hbase 总结

hbase 知识点总结

overfit同步小助手 2023-11-18 00:03:49 0 收藏

大数据-玩转数据-FLINK(Yarn模式)的安装与部署

在这些容器上，Flink 会部署JobManager 和 TaskManager 的实例，从而启动集群。一个Job会对应一个Flink集群，每提交一个作业会根据自身的情况，都会单独向yarn申请资源，直到作业执行完成，一个作业的失败与否并不会影响下一个作业的正常提交和运行。内存集中管理模式：在Yar

overfit同步小助手 2023-11-18 00:03:37 0 收藏

基于python大数据的动漫推荐系统毕业设计开题报告

基于python大数据的动漫推荐系统毕业设计开题报告,大学生毕业设计毕设开题报告模板

overfit同步小助手 2023-11-18 00:03:22 0 收藏

ELK + kafka 日志方案

本文介绍使用ELK（elasticsearch、logstash、kibana） +　kafka来搭建一个日志系统。主要演示使用spring aop进行日志收集，然后通过kafka将日志发送给logstash，logstash再将日志写入elasticsearch，这样elasticsearch就有

overfit同步小助手 2023-11-17 22:03:49 0 收藏

大数据——技术生态体系

SparkR 是 Apache Spark 生态系统中的一个项目，它提供了一个接口，允许 R 语言用户利用 Spark 的分布式计算能力来进行数据分析和处理。：Spark SQL 可以与其他 Spark 组件（如Spark Streaming、Spark MLlib等）集成，使用户能够在一个统一的

overfit同步小助手 2023-11-17 21:03:23 0 收藏

解密RabbitMQ：你所不知道的端口及其重要性

overfit同步小助手 2023-11-17 20:03:33 0 收藏

RabbitMQ (4)

本文主要内容： rabbitmq 死信队列

overfit同步小助手 2023-11-17 19:03:42 0 收藏

25、Flink 的table api与sql之函数(自定义函数示例)

1、Flink 部署、概念介绍、source、transformation、sink使用示例、四大基石介绍和示例等系列综合文章链接13、Flink 的table api与sql的基本概念、通用api介绍及入门示例14、Flink 的table api与sql之数据类型: 内置数据类型以及它们的属性1

overfit同步小助手 2023-11-17 18:03:27 0 收藏