大数据 - overfit.cn

Kafka流处理内幕详解

对于存储在Kafka系统内的数据，Kafka系统提供了一种进行处理和分析的功能——流处理，它具有以下特性。通常情况下，流式计算与批处理计算会放在一起做比较分析。（1）在流式计算模型中，数据的输入是持续不断的，这意味着永远不知道数据的上限是多少，因此，计算产生的结果也是持续输出的，流程如下图所示。流式

overfit同步小助手 2023-10-21 08:03:33 0 收藏

【HDFS】hdfs的count命令的参数详解

overfit同步小助手 2023-10-21 07:04:16 0 收藏

新一代大数据管家 DataSophon 1.2 重磅发版

在大数据领域，现在普遍认为是后Hadoop时代，CDH 的停更和闭源导致传统的 Hadoop 体系组件栈没有一个称手好用的管理工具，越来越多新一代的大数据项目也在层出不穷, 同样也需要管理，并且需要适配云原生的能力。不管技术如何演进都面临组件栈管理和运维的难题，鉴于此 DataSophon作为 Da

overfit同步小助手 2023-10-20 22:03:48 0 收藏

Kafka查看Topic和消息内容命令

以上是使用Kafka命令行工具查看Topic和消息内容的方法。通过这些命令，我们可以方便地获取Kafka集群中的Topic列表、Topic的详细信息以及消息的内容。在使用Kafka时，我们经常需要查看已创建的Topic以及Topic中的消息内容。执行上述命令后，将会显示出Kafka中所有的Topic

overfit同步小助手 2023-10-20 22:03:39 0 收藏

Harnessing the Power of Big Data in Public Transportati

作者：禅与计算机程序设计艺术 1.简介在公共交通运营中，拥有高质量、及时准确的大数据基础设施非常重要。当前全球公共交通领域的数据处理规模正在以指数级增长。通过对不同类型数据的分析、挖掘、存储和计算，以及通过智能预测和决策支持等手段，有效地运用大数据资源可以提供高

overfit同步小助手 2023-10-20 20:03:35 0 收藏

【HDFS】客户端读某个块时，如何对块的各个副本进行网络距离排序？

overfit同步小助手 2023-10-20 17:03:15 0 收藏

大数据系列——什么是Flink？Flink有什么用途？

Apache Flink是一个框架和分布式处理引擎，用于对无界和有界数据流进行有状态计算。Flink被设计在所有常见的集群环境中运行，以内存执行速度和任意规模来执行计算。支持高吞吐、低延迟(每秒处理百万个事件)、高性能的分布式处理框架。

overfit同步小助手 2023-10-20 15:03:43 0 收藏

大数据开源框架环境搭建(五)——Hbase完全分布式集群的安装部署

把最后一行的注释去除(解决hadoop和hbase的jar包冲突问题，为了不让hbase扫描hadoop的jar包)，并且添加(第三条很重要！HBASE_MANAGES_ZK=true，则使用HBase自带的Zookeeper进行管理，只能实现单机模式，常用于测试环境，不能用于生产环境。HBASE_

overfit同步小助手 2023-10-20 14:03:45 0 收藏

hadoop——环境配置

之前上课的时候我就已经用VMware Workstation 15 player创过了一台虚拟机并做了Hadoop的伪分布式安装，所以就不再从头演示，直接在这基础上接着讲了。

overfit同步小助手 2023-10-20 14:03:38 0 收藏

数据大帝国：大数据与人工智能的巅峰融合

大数据和人工智能的融合已经改变了我们的世界，创造了数据大帝国的时代。这一趋势不仅在科技领域有着深远的影响，也将改变我们的生活方式、工作方式和社会结构。在这个充满挑战和机遇的时代，我们期待看到更多创新和突破，以实现数据大帝国的愿景。无论是在数据科学、机器学习、深度学习还是大数据分析领域，每个人都可以为

overfit同步小助手 2023-10-20 13:03:37 0 收藏

docker服务如何正确关停

说明：停止 docker 服务之前，先把所有的容器都停掉，如果没停掉，再重启 docker 服务之后，所有的容器就会成为 Exited 状态。

overfit同步小助手 2023-10-20 13:03:18 0 收藏

Kafka日志索引详解以及生产常见问题分析与总结

文件，并以这个log文件写入的第一条消息的偏移量命名。这种设计其实是为了更方便进行文件映射，加快读消息的效率。对于业界的影响也是非常巨大的。这一章节还是按照之前的方式，从可见的Log。文件是当前写入消息的日志文件，其他文件都是不可修改的历史日志。文件的作用则是用来进行一些跟时间相关的消息处理。这些文

overfit同步小助手 2023-10-20 12:03:33 0 收藏

Windows下安装Kafka（图文记录详细步骤）

(一)、Kafka是由Apache软件基金会开发的一个开源流处理平台，由Scala和Java编写。Kafka是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者在网站中的所有动作流数据。(二)、Kafka 本质上是⼀个消息队列。与zeromq不同的是，Kafka是一个独立的框架而不是一个库。通过

overfit同步小助手 2023-10-20 12:03:24 0 收藏

springKafka 重试解决分布式事务

*** @desc kafka消息接受工具*/@Slf4j@Component/*** attempts：重试次数，默认为3。* @Backoff delay：消费延迟时间，单位为毫秒。* @Backoff multiplier：延迟时间系数，此例中 attempts = 4， delay = 50

overfit同步小助手 2023-10-20 11:03:17 0 收藏

Flink 系列三 Flink 实战

Flink 做为一款流式计算框架，它可用来做批处理，即处理静态的数据集、历史的数据集；也可以用来做流处理，即实时的处理些实时数据流，实时的产生数据流结果，只要数据源源不断的过来，Flink 就能够一直计算下去。Flink 系列二 Flink 状态化流处理概述Flink 系列一开发机安装。本篇作为

overfit同步小助手 2023-10-20 09:03:18 0 收藏

大数据常用算法和分析模型

黏性分析是在留存分析的基础上，对一些用户指标进行深化，除了一些常用的留存指标外，黏性分析能够从更多维度了解产品或者某功能黏住用户的能力情况，更全面地了解用户如何使用产品，新增什么样的功能可以提升用户留存下来的欲望，不同用户群体之间存在什么样的差异，不同用户对新增的功能有何看法。用户分析模型是基础的分

overfit同步小助手 2023-10-20 08:03:49 0 收藏

Kafka存取原理与实现分析，打破面试难关

在前面的几篇内容中，我们依次讲了Kafka的安装、与Spring Boot的结合，还有选型与应用场景。但是笔者也知道，对于很多小伙伴来说，原理及实现才算重头戏，而且也是面试热点，那么本次我们先来进行存取原理的分析，当然抱着疑问去学习才是最快的，因此在开始之前，我也先抛出一些Kafka的重点与热点问题

overfit同步小助手 2023-10-20 08:03:23 0 收藏

Hbase-技术文档-spring-boot整合使用hbase--简单操作增删改查--提供封装高可用的模版类

依赖声明表示将把Apache HBase客户端库的2.4.3版本添加到项目中。HBase是一个分布式、可扩展的大数据存储系统，它基于Google的Bigtable模型，并使用了Hadoop分布式文件系统作为底层存储。HBase客户端库是用于与HBase数据库进行交互的工具库，提供了一组API用于执行

overfit同步小助手 2023-10-20 07:03:47 0 收藏

Hadoop 安装教程 (Mac m1/m2版)

中内容替换如下，路径需换成自己的路径。(4)打开core-site.sh文件【vim core-site.xml】，将标签

overfit同步小助手 2023-10-20 07:03:40 0 收藏

Doris实时数仓dim层构建

flink cdc实时同步mysql维表

overfit同步小助手 2023-10-20 06:03:45 0 收藏