大数据 - overfit.cn

ZooKeeper之分布式环境搭建（新）【头歌】

将解压好的 Zookeeper 与配置文件通过 scp 命令发送至 slave1、slave2 中。5. 创建 zkData 目录并创建编辑 myid 文件输入 1。3. 配置环境变量 vi /etc/profile 并刷新。#修改 slave1、slave2 中的 myid。7. 发送配置文件并分

overfit同步小助手 14 天前 0 收藏

消息队列（仿RabbitMQ）—— 生产消费模型

本篇将实现一个3000多行的一个小项目，基于AMQP（高级消息队列协议）的消息队列，主要仿照 RabbitMQ 实现该代码，其本质也是生产消费模型的一个升级版本。实现的功能为：消息发布端将消息发送到服务器端，服务器端自动识别消息的类型，然后决定将消息发送给哪个消息接收端以及是否需要将消息保存起来。

overfit同步小助手 14 天前 0 收藏

为什么选择 Spring data hadoop

虽然最终选择了使用 spring data 来操作 hbase，但这并不代表其他的方式都不好。每种工具都有自己的特点和不足，结合自己的实际情况做出选择才是最明智的做法。

overfit同步小助手 14 天前 0 收藏

大数据导论第八章作业

答：数据通常是枯燥乏味的，利用数据可视化平台，枯燥乏味的数据可转变为丰富生动的视觉效果，不仅有助于简化人们的分析过程，还可在很大程度上提高分析数据的效率。数据可视化技术的基本思想是将数据库中每一个数据项以单个图元素来表示，用大量的数据集构成数据图像，同时将数据的各个属性值以多维数据的形式表示，使人们

overfit同步小助手 14 天前 0 收藏

记一次 Flink mongoDB CDC 到Kafka遇到的问题

是用来Flink用来产生CDC数据的,Flink SQL Planner 会自动为 Upsert 类型的 Source 生成一个 ChangelogNormalize 节点，并按照上述操作将其转换为完整的变更流；所以这里我们选择把 kakfa的数据转换成的正常的数据流，而不是CDC数据，因为我们最

overfit同步小助手 14 天前 0 收藏

24道数据仓库面试八股文（答案、分析和深入提问）整理

维度表强调的是数据的上下文和描述性，通常包含更丰富的属性信息。事实表则侧重于存储实际业务数据和度量，可以通过维度表的属性进行分析和查询。这样的结构有助于高效地进行数据分析，支持决策和业务洞察。这些概念相互关联，共同帮助构建一个高效、一致、可扩展的数据仓库，以便支持复杂的分析和决策过程。通过确保维度和

overfit同步小助手 14 天前 0 收藏

kafka千万级数据挤压问题解决

由执行结果可以看出，10个线程并不是一次性都执行完的，根据打印的时间，看出前五个线程是同时进行的，因为我们将信号量的初始值设为了5，等有线程释放了信号量之后，其他线程再继续执行。最开始为了将集群的性能调到最大，部署了10个节点，每个节点消费一个分区，首先将数据处理线程设置为20个，在这种情况下，消费

overfit同步小助手 14 天前 0 收藏

助力工业物联网，工业大数据之服务域：安装主题分析实现【二十七】

fact_srv_stn_ma：网点物料事务事实表。

overfit同步小助手 14 天前 0 收藏

Flink中的表和视图有什么区别，它们是如何工作的？

在 Flink 中，表和视图都是用来表示数据的重要概念，但它们有着不同的用途和特性。表用于存储实际的数据，而视图则提供了一种简化查询的方式。通过合理使用表和视图，可以构建复杂的流处理和批处理应用，并简化数据处理逻辑。在实际应用中，根据具体的需求选择合适的表或视图，可以更好地发挥它们的优势。

overfit同步小助手 14 天前 0 收藏

Spark-环境启动

从start-all.sh开始捋，一直捋到Master、Worker的启动并建立通信。

overfit同步小助手 14 天前 0 收藏

（五）Spark大数据开发实战：灵活运用PySpark常用DataFrame API

Spark大数据开发实战：灵活运用PySpark常用DataFrame API。本文数据来自采集豆瓣网分类排行榜 (“https://movie.douban.com/chart”)中各分类类别所有电影的相关信息并存储为csv文件。

overfit同步小助手 14 天前 0 收藏

RabbitMQ如何防止消息丢失及重复消费

解释：RabbitMQ可以开启 confirm 模式，在生产者那里设置开启 confirm 模式之后，生产者每次写的消息都会分配一个唯一的 id，如果消息成功写入 RabbitMQ 中，RabbitMQ 会给生产者回传一个 ack 消息，告诉你说这个消息 ok 了。消息丢失之后的处理：消息自动重新入

overfit同步小助手 14 天前 0 收藏

Linux的Spark 环境部署

4.创建软连接命令: ln -s /export/server/spark-3.5.3-bin-hadoop3 /export/server/spark。命令 scp -r /export/server/spark-3.5.3-bin-hadoop3 wtk1:/export/server/

overfit同步小助手 14 天前 0 收藏

Pentaho Big Data Plugin 常见问题解决方案

Pentaho Big Data Plugin 常见问题解决方案 big-data-plugin Kettle plugin that provides support for interacting within many "bi

overfit同步小助手 14 天前 0 收藏

rabbitmq如何保证消息顺序消费

通过以上措施，可以在RabbitMQ中有效地保证消息的顺序消费。

overfit同步小助手 14 天前 0 收藏

RabbitMQ实现消息可靠性的三种方法（发送者可靠性，MQ可靠性，消费者可靠性）

rabbitmq实现业务可靠性的一般方法

overfit同步小助手 14 天前 0 收藏

Kafka技术详解[5]: 集群启动

因此，每一个服务节点都称为一个Broker，并且为了区分不同的服务节点，每一个Broker都需要有一个唯一的全局ID，即。Kafka集群含有多个服务节点，而在经典的主从架构中，需要从多个服务节点中选出一个作为集群管理的Master节点，即Controller。如果在运行过程中，Controller节

overfit同步小助手 14 天前 0 收藏

Linux 离线安装docker和docker-compose

公司有 docker 和 docker-compose 离线包安装部署的需求，本文应运而生撰写时间：2024-06-07（初稿）

overfit同步小助手 14 天前 0 收藏

java157_springboot基于Hive的网络电视剧收视率分析系统python爬虫可视化大屏

本课题使用了SpringBoot、Vue和MySQL作为技术栈，体现了其技术可行性。SpringBoot作为轻量级Java开发框架，能提高开发效率和降低系统复杂度；Vue作为流行的前端框架，实现页面的动态渲染和交互；MySQL作为关系型数据库管理系统，支持数据的存储和管理。整合后，平台可以借助RES

overfit同步小助手 14 天前 0 收藏

Couchbase Python客户端库项目推荐

Couchbase Python客户端库项目推荐 couchbase-python-client Couchbase Python Client Library (Official)

overfit同步小助手 14 天前 0 收藏

ZooKeeper之分布式环境搭建（新）【头歌】

消息队列（仿RabbitMQ）—— 生产消费模型

为什么选择 Spring data hadoop

大数据导论第八章作业

记一次 Flink mongoDB CDC 到Kafka遇到的问题

24道数据仓库面试八股文（答案、分析和深入提问）整理

kafka千万级数据挤压问题解决

助力工业物联网，工业大数据之服务域：安装主题分析实现【二十七】

Flink中的表和视图有什么区别，它们是如何工作的？

Spark-环境启动

（五）Spark大数据开发实战：灵活运用PySpark常用DataFrame API

RabbitMQ如何防止消息丢失及重复消费

Linux的Spark 环境部署

Pentaho Big Data Plugin 常见问题解决方案

rabbitmq如何保证消息顺序消费

RabbitMQ实现消息可靠性的三种方法（发送者可靠性，MQ可靠性，消费者可靠性）

Kafka技术详解[5]: 集群启动

Linux 离线安装docker和docker-compose

java157_springboot基于Hive的网络电视剧收视率分析系统python爬虫可视化大屏

Couchbase Python客户端库项目推荐

作者榜

资讯小助手

内容小助手

Deephub

奕凯