大数据 - overfit.cn

logstash接收kafka日志

overfit同步小助手 2024-08-11 01:03:48 0 收藏

hive环境安装

0.hive环境安装win0.解压1.配置环境windows运行不了hive高版本需替换bin下载 http://archive.apache.org/dist/hive/hive-1.0.0/ 替换原来bin下载和拷贝一个mysql-connector-java-8.0.x.jar到 $HIV

overfit同步小助手 2024-08-11 00:03:54 0 收藏

Spark实时（四）：Strctured Streaming简单应用

Continuous不再是周期性启动task的批量执行数，而是启动长期运行的task，而是不断一个一个数据进行处理，周期性的通过指定checkpoint来记录状态（如果不指定checkpoint目录，会将状态记录在Temp目录下），保证exactly-once语义，这样就可以实现低延迟。注意：以上代

overfit同步小助手 2024-08-11 00:03:42 0 收藏

大数据-68 Kafka 高级特性物理存储日志存储概述

上节研究Kafka的分区分配策略，Range、RoundRobin、Sticky、自定义策略。本来研究Kafka物理存储，日志存储的概述内容。消息是以主题为单位进行归类，各个主题之间是彼此独立的，互不影响。每个主题又可以分为一个或多个分区每个分区各自存在一个记录消息数据的日志文件我这里的情况是：有一

overfit同步小助手 2024-08-10 23:04:01 0 收藏

什么是未授权访问漏洞？Hadoop & Redis靶场实战——Vulfocus服务攻防

Vulfocus是一个便捷的漏洞集成平台，用户只需加载漏洞环境的Docker镜像即可快速使用。它具备一键启动、自动更新flag、计分考核等特性，适用于安全测试和能力评估。平台兼容Vulhub和Vulapps的镜像，支持可视化配置，是安全人员的理想工具。在线位置：https://vulfocus.cn

overfit同步小助手 2024-08-10 23:03:56 0 收藏

官宣｜Apache Flink 1.20 发布公告

Apache Flink PMC（项目管理委员）很高兴地宣布发布 Apache Flink 1.20.0。与往常一样，这是一个充实的版本，包含了广泛的改进和新功能。总共有 142 人为此版本做出了贡献，完成了 13 个 FLIPs、解决了 300 多个问题。

overfit同步小助手 2024-08-10 22:03:46 0 收藏

kafka消费者

可以理解为分配的结果带有“粘性的”。即在执行一次新的分配之前，考虑上一次分配的结果，尽量少的调整分配的变动，可以节省大量的开销。粘性分区是 Kafka 从 0.11.x 版本开始引入这种分配策略，首先会尽量均衡的放置分区到消费者上面，在出现同一消费者组内消费者出现问题的时候，会尽量保持原有分配的分区

overfit同步小助手 2024-08-10 21:03:39 0 收藏

RabbitMQ中常用的三种交换机【Fanout、Direct、Topic】

此时支付服务会把支付结果发送到交换机中，而短信服务就会去监听这个交换机，但是交换机不会把所有的消息都路由给短信服务，而只把支付成功的消息路由给这个短信服务。这种情况下，就需要使用到这个Direct交换机，短信服务下的队列和这个交换机设置一个key（例如：success），支付服务发消息时，支付成功R

overfit同步小助手 2024-08-10 20:03:54 0 收藏

HBase

1、启动hadoop验证2、启动zookeeper需要在在三台中分别启动3、启动hbase集群，需要在master上执行4、验证hbase通过 hbase shell 进入到hbase的命令行NoSQL:理解： NOT ONLY SQL non-relational(非关系型数据库)

overfit同步小助手 2024-08-10 20:03:42 0 收藏

Eureka 服务注册与发现

在微服务开发中，一个服务通常由一个微服务集群提供，在代码中两个服务之间的服务器是不可能绑定死的，是 n 对 n 的关系，所以对微服务进行管理是很有必要的。比如当订单服务需要用到商品信息时就需要发送请求给商品服务，我们要如何找到商品服务呢？可以通过 Eureka 来找到该服务。在微服务开发中：服务时,

overfit同步小助手 2024-08-10 19:03:39 0 收藏

Hadoop学习（三）

1)虚拟存储过程：将输入目录下所有文件大小，依次和设置的setMaxInputSplitSize值比较，如果不大于设置的最大值，逻辑上划分一个块。应用场景：适用于小文件过多的场景，它可以将多个小文件从逻辑上规划到一个切片（数据切片）中，多个小文件就可以交给一个MapTask处理。2）数据切片（Map

overfit同步小助手 2024-08-10 19:03:35 0 收藏

Spark SQL 血缘解析方案

瞬间是不是感觉清晰了，可以完美的拿到表和表以及字段和字段的关系，甚至在加工点场景，可以吧字段的加工表达式可以给生成出来.这里需要注意原生的json文件太大，在发送到kafka中对存储和带宽都有压力，最后注意：血缘的解析处理，放在该agent端，否则kafka的压力会很大，因为单条消息生产环境下会很

overfit同步小助手 2024-08-10 18:03:38 0 收藏

RabbitMQ高级特性 - 消息分发（限流、负载均衡）

RabbitMQ 的队列在有多个消费者订阅时，默认会通过轮询的机制将消息分发给不同的消费者，但是有些消费者消费速度慢，有些消费者消费速度快，就会导致消费速度慢的消费者影响整个的任务的吞吐量下降例如，公司有1个正式员工和1个实习生，现在有 10 个任务分配平均给他们（各 5 个），而由于实习生干活比较

overfit同步小助手 2024-08-10 18:03:31 0 收藏

大数据-66 Kafka 高级特性分区副本因子修改 replicas动态修改

上节完成了Kafka宕机恢复后，Leader不会重新分配，需要我们用脚本重新恢复。本节对Kafka集群的副本因子进行修改，现实业务中我们会遇到：当Kafka集群中有一个节点宕机了，比如Broker0、Broker1中，Broker1宕机了，此时由于我们配置了副本数为2，Kafka集群正常工作，提供生

overfit同步小助手 2024-08-10 18:03:20 0 收藏

嵌入式C++、InfluxDB、Spark、MQTT协议、和Dash：树莓派集群物联网数据中心设计与实现（代码示例）

本文介绍了一个基于树莓派集群的物联网数据中心设计与实现。该系统采用了全面的技术栈，涵盖了从数据采集到分析可视化的完整流程。主要技术包括：使用MQTT协议进行数据采集，Apache Kafka实现高效数据传输，InfluxDB存储时序数据，Apache Spark进行大规模数据处理，Pandas和Sc

overfit同步小助手 2024-08-10 17:03:39 0 收藏

Spring Cloud全解析：注册中心之Eureka架构介绍

Eureka的AP原则，Eureka中各个节点是平等的，几个节点挂掉不会影响正常的节点工作，正常的节点依然可以正常提供注册和查询服务，只要有一台Eureka还在，就可以保证注册服务可用，只不过可能查到的信息不是最新的(不保证强一致性)，且存在自我保护机制，如果在15分钟内超过85%的节点都没有正常的

overfit同步小助手 2024-08-10 16:03:54 0 收藏

Spark与Hadoop生态系统

《Spark与Hadoop生态系统》关键词：Spark、Hadoop、大数据、分布式计算、生态系统1. 背景介绍1.1 问题的由来随着数据量的爆炸性增长，传统的数据处理方式已经无法满足实时计算和海量数据分析的需求。

overfit同步小助手 2024-08-10 16:03:30 0 收藏

kafka-重试和死信主题（SpringBoot整合Kafka）

在Kafka中，DLT通常指的是。Dead Letter Topic（DLT）的定义与功能：DLT的使用与意义：总之，在Kafka中，DLT是一个用于处理无法被成功消费的消息的特殊Topic，它提供了一种灵活且可靠的机制来保障Kafka系统的稳定性和可靠性。3.2、引入spring-kafka依赖

overfit同步小助手 2024-08-10 15:03:49 0 收藏

摸鱼大数据——Kafka——kafka tools工具使用

可以在可视化的工具通过点击来操作kafka完成主题的创建，分区等操作注意: 安装完后桌面不会有快捷方式,需要去电脑上搜索,或者去自己选的安装位置找到发送快捷方式到桌面!

overfit同步小助手 2024-08-10 15:03:38 0 收藏

Win10安装和使用Apache Kafka

Apache Kafka是一个开源的分布式流处理平台，广泛用于构建高性能的数据管道和流式应用程序。它能够处理大量数据，支持实时数据流的传输和处理，适用于日志收集、监控数据聚合、流式数据处理、在线和离线分析等多种大数据场景。Kafka具有高吞吐量、可扩展性强、低延迟的特点，它通过分区、复制和容错机制来

overfit同步小助手 2024-08-10 14:03:50 0 收藏