大数据 - overfit.cn

RabbitMQ---交换机-Fanout-Direct

rabbitmq 交换机

overfit同步小助手 2024-07-11 01:03:52 0 收藏

大数据实战项目 -- 家用热水器用户行为分析

一、实验内容居民在使用家用热水器的过程中，会因为地区气候、不同区域和用户年龄性别差异等原因形成不同的使用习惯。家电企业若能深入了解其产品在不同用户群中的使用习惯，从而产商便可以对不同的客户群提供最适合的个性化产品，制定相应的营销策略，开拓新市场。定义挖掘目标如下：1.根据热水器采集到的数据，划分一次

overfit同步小助手 2024-07-11 00:03:51 0 收藏

Kafka 实战 - 消费者poll消息的细节与消费者心跳配置

方法来高效拉取消息，同时要关注消费者心跳配置以保持与集群的稳定连接和 rebalance 的正常进行。在实践中，应根据具体业务场景和性能指标调整相关参数，以实现最佳的消费性能和消息处理可靠性。消费者心跳是消费者向群组协调器发送的定期信号，用于表明自己仍处于活跃状态，并维持与 Kafka 的连接。方法

overfit同步小助手 2024-07-11 00:03:47 0 收藏

Spark编程基础（Python版）林子雨期末复习

Structured sreaming处理的数据与Spark Streaming一样，也是源源不断的数据流，它们之间的区别在于，Spark Streaming采用的数据抽象是DStream(本质上就是一系列RDD),而Structured Streaming采用的数据抽象是DataFrame。用户需

overfit同步小助手 2024-07-11 00:03:38 0 收藏

基于大数据的电影点评与推荐

overfit同步小助手 2024-07-10 23:03:56 0 收藏

Python基于大数据的豆瓣电影分析，豆瓣电影可视化系统，附源码

Python基于大数据的豆瓣电影分析，豆瓣电影可视化系统，附源码，包括了电影数据爬取、电影数据分析，饼状图，条形图等可视化功能。该项目含有源码、配套开发软件、软件安装教程等。系统功能完整，实用性强。适合作为毕业设计、课程设计、数据库大作业学习使用。本系统包括了影视系统的爬虫与分析。通过采用Pytho

overfit同步小助手 2024-07-10 22:03:48 0 收藏

centos配置Kafka-eagle（EFAK）无法登录

在配置Kafka-eagle时候，在web端能够打开登录界面，但是输入用户名和密码以后没反应。

overfit同步小助手 2024-07-10 21:03:54 0 收藏

【数据结构】LSM树（log-structed-merge-tree）原理及应用

LSM 树的思想是使用顺序写代替随机写来提高写性能，与此同时会略微降低读性能。HBase、 Cassandra、 LevelDB、 RocksDB 以及 ClickHouse MergeTree 等流行的 NoSQL 数据库均采用 LSM 存储结构。

overfit同步小助手 2024-07-10 21:03:16 0 收藏

百亿级存储架构： ElasticSearch+HBase 海量存储架构与实现

先看一下整体架构，整个数智枢纽(Data Intelligence Hub)服务核心主要分为：数据统一接入层数据统一查询层元数据管理索引建立平台监控在线与离线数据存储层先看一下整体架构图，如下图：下面将分别对其进行介绍。尼恩提示：以上内容比较复杂，如果需要深入了解，请参见尼恩后续的《百亿级海

overfit同步小助手 2024-07-10 20:03:48 0 收藏

Kafka数据同步

由于0.11版本之前Kafka的副本备份机依赖HW存数据不一致问题和丢失数据问题，因此在0.11版本引入了 Leader Epoch同步机制解决这个问题。其中Leader负责对应分区的读写、Follower负责同步分区的数据，0.11 版本之前Kafka使用highwatermarker（高水位）机

overfit同步小助手 2024-07-10 19:03:56 0 收藏

Python 库PySpark，一个超级强大的数据处理引擎

PySpark 是Apache Spark的 Python API，它让我们能够在 Python 环境中使用 Spark 的强大功能。Spark 是一个快速的、通用的大数据处理引擎，能够以分布式的方式处理大规模数据。通过 PySpark，我们可以使用 Spark 的所有功能，包括数据处理、机器学习、

overfit同步小助手 2024-07-10 19:03:53 0 收藏

docker-compose部署 kafka 3.7 启用账号密码认证

docker-compose部署 kafka 3.7 并启用账号密码认证

overfit同步小助手 2024-07-10 19:03:47 0 收藏

archiver error. Connect internal only, until freed.

[64000][257] ORA-00257: archiver error. Connect internal only, until freed.

overfit同步小助手 2024-07-10 19:03:44 0 收藏

HBase基础

在 HBase 表中，一条数据拥有一个全局唯一的键(RowKey)和任意数量的列(Column)，一列或多列组成一个列族(Column Family)，同一个列族中列的数据在物理上都存储在同一个 HFile 中，这样基于列存储的数据结构有利于数据缓存和查询。HBase Client 为用户提供了访问

overfit同步小助手 2024-07-10 18:03:52 0 收藏

【Hadoop实战】Hadoop集群搭建攻略零失误，最完整的Hadoop搭建流程

Hadoop搭建攻略，HDFS教程，MapReduce，网络配置，免密配置，环境配置，核心配置文件，授权访问等等

overfit同步小助手 2024-07-10 18:03:48 0 收藏

【SpringCloud】Eureka的简单使用

本文使用的是jdk17，mysql8。以下用两个服务做演示：订单服务：提供订单ID，获取订单详细信息。商品服务：提供商品ID，获取商品详细信息。对于上篇订单服务调用商品服务的时候，使用Spring提供的RestTemplate远程调用时，url部分是写死的，这是很不方便我们后续的操作。针对这个问题，

overfit同步小助手 2024-07-10 18:03:39 0 收藏

Kafka、RabbitMQ、Pulsar、RocketMQ基本原理和选型

消息队列中间件是分布式系统中重要的组件，主要解决应用耦合，异步消息，削峰填谷等问题。实现高性能、高可用、可伸缩和最终一致性架构。针对常见的消息队列进行探讨，并比较kafka、rabbitmq、rocketmq、pulsar这几种消息队列的异同，以及相关使用场景

overfit同步小助手 2024-07-10 16:03:49 0 收藏

大数据背景下的银行个人征信体系研究

大数据背景下的银行个人征信体系研究1.背景介绍1.1 个人征信的重要性在当今社会中,个人征信体系对于维护金融秩序、促进社会信用建设发挥着至关重要的作用。银行作为主要的信贷机构,对个人征信体系的建立和完善尤为重视。良好的个人征信记录不

overfit同步小助手 2024-07-10 16:03:29 0 收藏

Spark动态分区合并底层原理详解：案例解析（第30天）

本文主要详解Spark动态分区合并底层原理和应用场景。

overfit同步小助手 2024-07-10 14:03:53 0 收藏

Linux-Kafka 3.7.0 Kraft+SASL认证模式集群安装与部署超详细

这个是3.2.0版本新引入的认证方式，可以参考 https://cwiki.apache.org/confluence/display/KAFKA/KIP-801%3A+Implement+an+Authorizer+that+stores+metadata+in+__cluster_metadat

overfit同步小助手 2024-07-10 14:03:49 0 收藏