大数据 - overfit.cn

Kyuubi1.6.0+Spark3.0.0部署

Kyuubi1.6.0是支持Spark3.0.0的最后一个版本，再往上需要更高的Spark版本，我这里就没再测试。

overfit同步小助手 2024-08-16 03:03:17 0 收藏

【C++】静态库和链接选项--whole-archive

欢迎大家关注公众号最近在迁移服务到Linux，不少人遇到未定义的符号之类的错误无所适从。简单的情况不做介绍，比如库路径不对等，最近几篇文章主要介绍库依赖相关的情况。预备知识静态库静态库实际上是二进制目标文件的集合。生成目标文件，需要用到-c选项；打包静态库用到ar命令。$g++-ca.cpp$arr

overfit同步小助手 2024-08-16 02:03:43 0 收藏

RocketMQ 是什么？它的架构是怎样的？和 Kafka 有什么区别？

"和"

overfit同步小助手 2024-08-16 00:03:36 0 收藏

flink车联网项目前篇：项目设计（第64天）

本文介绍车联网项目设计，数仓分层，数仓主题，数据建模。

overfit同步小助手 2024-08-15 21:03:38 0 收藏

Java中的流式数据处理与Apache Flink应用

在本文中，我们深入探讨了如何使用Java和Apache Flink进行流式数据处理。我们从基本的Flink应用开发开始，介绍了如何创建数据流、读取数据源和写入数据汇。Apache Flink 是一个开源的流处理框架，支持大规模数据流的实时处理和分析。Flink 的核心包括流处理和批处理，虽然它的主要

overfit同步小助手 2024-08-15 20:03:57 0 收藏

数据湖和数据仓库核心概念与对比

大数据领域从本世纪初发展到现在，观察其中的发展规律，可以高度概括成如下五个方面：1. 数据保持高速增长 - 从5V核心要素看，大数据领域保持高速增长，对于新兴企业，大数据领域增长超过年200%。2. 大数据作为新的生产要素，得到广泛认可 - 大数据领域价值定位的迁移，从“探索”到“普惠”，成为各个企

overfit同步小助手 2024-08-15 20:03:51 0 收藏

大数据-63 Kafka 高级特性分区副本机制宕机恢复 Leader选举

上节完成kafka-topics基本参数和使用，涉及创建、查看、修改等等内容。本节学习Kafka的高级特性：分区，包含副本机制、宕机恢复、Leader的选举。副本之间的关系并不是固定不变的，在Leader所在的Broker发生故障的时候，就需要进行分区的Leader副本和Follower副本之间的切

overfit同步小助手 2024-08-15 18:03:55 0 收藏

大数据-67 Kafka 高级特性分区分配策略 Ranger、RoundRobin、Sticky、自定义分区器

上节Kafka高级特性分区-副本数量调整，业务中遇到副本调整需求，但是无法直接修改，需要JSON+脚本的方式来进行配置。本节分区-分区策略，有Ranger、RoundRobin、Sticky等策略，最后实现自定义分区器。需要实现org.apache.kafka.clients.consumer.in

overfit同步小助手 2024-08-15 16:03:23 0 收藏

消息中间件：深入理解 Kafka 的核心架构与组件解析

Kafka 是一种流行的分布式流处理平台，广泛应用于实时数据处理和消息队列场景。本文将深入解析 Kafka 的核心架构及其各个组成部分，包括 Broker、主题、分区、生产者、消费者、消费者组、Zookeeper、日志、偏移量，以及 Leader-Follower 机制。通过清晰的关系图和详细的解释

overfit同步小助手 2024-08-15 15:05:32 0 收藏

工作中常用的RabbitMQ实践

Topic类型:(当生产者往该交换机发送消息时，他并不像direct指定固定的routingkey，可以进行模糊匹配，当该routingkey为空时，他会匹配routingkey为空的队列)direct类型:(当生产者往该交换机发送消息时，他必须指定固定的routingkey，当routingkey

overfit同步小助手 2024-08-15 15:05:16 0 收藏

探索BigData与Docker Compose的完美结合——一站式大数据平台解决方案

???? 探索BigData与Docker Compose的完美结合——一站式大数据平台解决方案项目地址:https://gitcode.com/spancer/bigdata-docker-compose在当今数据驱动的世界里，处理海量数据的需求比以往任何时候都更加紧迫。然而，搭建和维护一个高效稳

overfit同步小助手 2024-08-15 13:03:47 0 收藏

SparkGraphX与Solr比较

SparkGraphX与Solr比较作者：禅与计算机程序设计艺术 / Zen and the Art of Computer Programming关键词：Graph Processing, Solr, Distributed Computing, Large Scale Data Retrieva

overfit同步小助手 2024-08-15 12:03:43 0 收藏

SparkGraphX与AmazonNeptune比较

SparkGraphX与AmazonNeptune比较作者：禅与计算机程序设计艺术 / Zen and the Art of Computer Programming关键词：SparkGraphX, AmazonNeptune, 图计算, 图数据库, 图处理框架

overfit同步小助手 2024-08-15 12:03:30 0 收藏

毕设项目基于大数据的b站数据分析

本文主要运用Python的第三方库SnowNLP对弹幕内容进行情感分析，使用方法很简单，计算出的情感score表示语义积极的概率，越接近0情感表现越消极，越接近1情感表现越积极。从数据可视化中可以看到，播放量排名前三的分别是生活类、动画类、鬼畜类，让人诧异的是以动漫起家的B站，播放量最多的视频分类竟

overfit同步小助手 2024-08-15 11:03:53 0 收藏

Spark Structured Streaming窗口聚合和非窗口聚合

两者都用于对数据进行聚合操作，支持类似的聚合函数（如求和、平均值等）窗口聚合基于时间窗口进行计算，适用于流处理；非窗口聚合对整个数据集进行计算，适用于批处理，你可以这样理解，离线计算本身就是一个非常大的窗口计算，窗口大到容纳下所有的数据，而事实计算的窗口是比较小的窗口，也就是计算结果只是数据集上的一

overfit同步小助手 2024-08-15 11:03:43 0 收藏

hive3.1.2的详细安装配置

因为hive3.1.2中的有些jar包和比hadoop版本中的jar包版本低，所以我们需要进行一个jar包的替换，把hive中的/hive/lib中的guava-19.0.jar包改名为guava-19.0.jar.bak并从/hadoop-3.1.3/share/hadoop/common/lib

overfit同步小助手 2024-08-15 11:03:37 0 收藏

大数据-42 Redis 功能扩展发布/订阅模式事务相关的内容 Redis弱事务

上节使用了Redis的bitmap、geohash、Stream类型。本节对Redis功能进行扩展：发布/订阅模式、事务相关的概念。订阅发布的功能，可以用于消息的传输发布者和订阅者都是Redis的客户端Channel则为Redis的服务端。发布者将消息发送到某个频道，订阅了这个频道的订阅者就能收到这

overfit同步小助手 2024-08-15 11:03:28 0 收藏

Springboot集成多个RabbitMQ数据源创建队列混乱该怎么解决？

overfit同步小助手 2024-08-15 10:03:42 0 收藏

大数据-65 Kafka 高级特性分区 Broker自动再平衡 ISR 副本宕机恢复再重平衡实测

上节完成模拟Kafka集群中的分区重新分配，当线上Kafka节点不够用时，新增节点后，分区不会分配，需要脚本来重新分配。本节我们继续研究分区中Broker的自动再平衡，当Broker宕机再恢复后，分区也不会恢复，需要脚本进行自动再重平衡。

overfit同步小助手 2024-08-15 10:03:31 0 收藏

大数据-80 Spark 简要概述系统架构部署模式与Hadoop MapReduce对比

上节我们终于到了Kafka最后一个内容，集群的可视化方案，JConsole、Kafka Eagle等内容，同时用JavaAPI获得监控指标。本节研究Spark的简要概述，系统架构、部署模式、与MapReduce进行对比。MapReduce 昨天Spark 今天Flink 未来MapReduce和Sp

overfit同步小助手 2024-08-15 10:03:17 0 收藏