大数据 - overfit.cn

【kafka】实时数据存储

kafka是一个高吞吐的分布式消息系统分区：分布式副本：容错性。

overfit同步小助手 2023-12-01 10:03:46 0 收藏

Ubuntu 安装Kafka

在本指南中，我们将逐步演示如何在 Ubuntu 22.04 上安装 Apache Kafka。在大数据中，数以百万计的数据源生成了大量的数据记录流，这些数据源包括社交媒体平台、企业系统、移动应用程序和物联网设备等。如此庞大的数据带来的主要挑战有两个方面：高效的数据收集和分析。为了克服这些挑战，您需要

overfit同步小助手 2023-12-01 09:03:43 0 收藏

RabbitMQ之发送者（生产者）可靠性

生产者重试机制、生产者确认机制。每个RabbitTemplate只能配置一个ReturnCallback，因此我们可以在配置类中统一设置。// 获取RabbitTemplate RabbitTemplate rabbitTemplate = applicationContext . getBean(

overfit同步小助手 2023-12-01 07:03:45 0 收藏

数据同步工具调研选型：SeaTunnel 与 DataX 、Sqoop、Flume、Flink CDC 对比

Apache SeaTunnel 是一个非常易用的超高性能分布式数据集成产品，支持海量数据的离线及实时同步。每天可稳定高效同步万亿级数据，已应用于数百家企业生产，也是首个由国人主导贡献到 Apache 基金会的数据集成顶级项目。SeaTunnel 主要解决数据集成领域的常见问题：数据源多样：常用的数

overfit同步小助手 2023-12-01 06:03:46 0 收藏

Hadoop HDFS分布式文件系统（介绍以及基础操作命令）

HDFS是Hadoop三大组件（HDFS、MApReduce、YARN）之一。全称是Hadoop Distributed File System（Hadoop分布式文件系统）。是Hadoop技术栈内提供的分布式数据存储解决方案，可以在多台服务器上构建集群，存储海量的数据。2.HDFS基础架构HDFS

overfit同步小助手 2023-12-01 06:03:17 0 收藏

ActiveMQ、RabbitMQ、RocketMQ、Kafka介绍

上述案例中，如果我们使用接口进行消息推送，推送消息我们可以放在事务中处理，如果推送过程中出现异常，我们可以进行数据回滚，但我们引入消息中间件后，就需要考虑消息推送后，消费失败的问题，以及如果我们同时推送消息到BCD系统中，如何保证他们的事务一致性。但我们引入消息中间件后，就需要考虑消息中间件的维护，

overfit同步小助手 2023-12-01 04:03:30 0 收藏

一、nacos使用

好哪有同学问你怎么知道断点就达到这里，那我们看一下怎样查看源码的启动的路径，我们看一下我们订单微服务的路径，我们要集成nacos的服务发现功能，我们要引入我们的discovery的包，他是一个starter，前面我们学过springboot我们知道任何starter里面一定有个spring.fact

overfit同步小助手 2023-12-01 02:03:38 0 收藏

【Hadoop】四、Hadoop生态综合案例 ——陌陌聊天数据分析

背景介绍陌陌作为聊天平台每天都会有大量的用户在线，会出现大量的聊天数据，通过对聊天数据的统计分析，可以更好的对用户构建精准的用户画像，为用户提供更好的服务以及实现高ROI的平台运营推广，给公司的发展决策提供精确的数据支撑。FineBI的介绍：https://www.finebi.com/Fine

overfit同步小助手 2023-12-01 02:03:21 0 收藏

Linux安装zookeeper的详细过程

Linux安装zookeeper的详细过程；2181端口被占用的问题；启动hadoop集群；启动zookeeper；查看集群状态；关闭zookeeper；关闭Hadoop集群

overfit同步小助手 2023-11-30 23:03:31 0 收藏

zookeeper单机版的搭建

4.通过vim修改配置文件夹，将dataDir 修改成刚才所建的data文件夹。./zkServer.sh status # 查看启动状态。./zkServer.sh restart # 重启。./zkServer.sh stop # 停止。./zkCli.sh # 查看zk客户端。2.创建data

overfit同步小助手 2023-11-30 21:03:53 0 收藏

ubantu安装kafka

在官网下载所需版本，我这里以kafka_2.12-2.7.0为例。

overfit同步小助手 2023-11-30 21:03:40 0 收藏

一、配置安装hadoop环境

~ 代表的是用户的主文件夹，即 “/home/用户名” 这个目录，如你的用户名为 hadoop，则 ~ 就代表 “/home/hadoop/”进入/opt/hadoop-3.2.2/share/hadoop/mapreduce文件夹运行词频统计命令。则修改/opt/hadoop-3.2.2/etc/

overfit同步小助手 2023-11-30 20:03:38 0 收藏

京东平台双11全品类完整销售数据回顾（京东大数据-京东数据采集-京东数据接口）

因此，今年美妆护肤的销售水平同比去年均有所下滑，护肤类销量销额均同比下滑8%，彩妆类的销量同比下滑14%。相反，数码配件一度畅销，蓝牙耳机销售额同比增长40%，游戏手柄销量同比增长84%，智能手表销售额同比增长45%。京东营养滋补品类相较去年高速增长，钙片类产品销量同比增长超100%，调节三高类产品

overfit同步小助手 2023-11-30 20:03:29 0 收藏

[hive] 窗口函数 ROW_NUMBER()

在 Hive SQL 中，是一个用于生成行号的窗口函数。它可以为。以下是子句可选，用于指定，它将结果集划分为不同的分区。每个分区内的行都会有独立的行号计数，即行号从1开始重新计数。ORDER BY子句用于指定，它决定了如何对分区内的行进行排序。行号将根据指定的排序顺序进行分配。函数可以与其他窗口函数

overfit同步小助手 2023-11-30 19:03:50 0 收藏

Hive表DDL操作（二）第1关：Create/Drop/Alter 视图

overfit同步小助手 2023-11-30 19:03:19 0 收藏

数据处理生产环境_利用MurmurHash3算法在Spark和Scala中生成随机颜色

生产环境中的前端轨迹是没有颜色的，我这边作为数据工程的应用层，必须支撑给不同的编号数据一个随机颜色，如果数据中编号一样了，也要支持同一颜色目标是同一种随时颜色。此代码定义了一个函数，使用MurmurHash3算法根据输入的种子生成随机颜色。代码主要功能是使用自定义的函数（UDF）将这个函数应用到D

overfit同步小助手 2023-11-30 18:03:51 0 收藏

深入理解Kafka3.6.0的核心概念，搭建与使用

Kafka是最初由Linkedin公司开发，是一个分布式、支持分区的（partition）、多副本的（replica），基于zookeeper协调的分布式消息系统，它的最大的特性就是可以实时的处理大量数据以满足各种需求场景：比如基于hadoop的批处理系统、低延迟的实时系统、Storm/Spark流

overfit同步小助手 2023-11-30 18:03:41 0 收藏

Hive创建分区表并插入数据

静态分区在插入数据时要指定分区名，支持load、insert两种插入方式，主要用于分区少，分区名可以确定的情况。

overfit同步小助手 2023-11-30 16:03:41 0 收藏

Linux虚拟机系统Ubuntu搭建Hadoop集群

大学生大数据实验亲手实操笔录，希望可以帮助到大家。

overfit同步小助手 2023-11-30 15:03:46 0 收藏

kafka、zookeeper、flink测试环境、docker

kafka、zookeeper、flink测试环境

overfit同步小助手 2023-11-30 13:03:49 0 收藏