大数据 - overfit.cn

【EFK】基于K8S构建EFK+logstash+kafka日志平台

Elasticsearch 是一个分布式的免费开源搜索和分析引擎，适用于包括文本、数字、地理空间、结构化和非结构化数据等在内的所有类型的数据。Elasticsearch 在 Apache Lucene 的基础上开发而成，由 Elasticsearch N.V.（即现在的 Elastic）于 2010

overfit同步小助手 2024-03-07 01:03:48 0 收藏

hql、数据仓库、sql调优、hive sql、python

英文名称为Data Warehouse，可简写为DW或DWH。为企业级别的决策制定过程，提供所有类型数据支持的战略集合。它出于分析性报告和决策支持目的而创建，为需要业务智能的企业，提供指导业务流程改进、监视时间、成本、质量以及控制。

overfit同步小助手 2024-03-07 01:03:17 0 收藏

Spark在降本增效中的一些思考

这也是笔者一直在关注的项目，根据 TPC-H 测试结果显示起码有2倍的性能提升，但是实际效果还是得看SQL的pattern。但是由于目前我们的Spark 是基于 3.5.0的，是比较新的版本，而社区这块的融合还在继续，所以这块今年应该可以行动起来,可以参考。注意：我们批集群的CPU利用率在60%以

overfit同步小助手 2024-03-07 00:03:51 0 收藏

RabbitMQ面试题

总结为：消息未达到交换机，消息未达到队列，队列中丢失消息，消费者未接收到消息生产者确认机制是指生产者发送消息后，需要等待RabbitMQ服务器的确认消息，以确保消息已经被成功地发送到RabbitMQ服务器。如果RabbitMQ服务器没有收到消息或者消息发送失败，生产者会收到一个确认消息，从而可以进行

overfit同步小助手 2024-03-07 00:03:28 0 收藏

【初始RabbitMQ】高级发布确认的实现

全网最详细的高级发布确认，万字文章详细的介绍了RabbieMQ中延迟队列各种细节，以及实现方法，每一步代码均有详细的解析，看这一篇就对了！！！

overfit同步小助手 2024-03-06 23:03:47 0 收藏

PyFlink核心知识点

overfit同步小助手 2024-03-06 23:03:44 0 收藏

大数据电商公司的卓越之路及api如何应用

电商平台API目前支持以下基本接口：

overfit同步小助手 2024-03-06 23:03:32 0 收藏

【RabbitMQ】Spring整合RabbitMQ、Spring实现RabbitMQ五大工作模式（万字长文）

订阅模式与前两种不同，订阅模式需要使用到fanout类型的交换机，并且将队列与之绑定，他的生产者在xml文件里需要去创建两个队列与fanout类型的交换机并绑定，在发送消息时指定交换机名称即可，而消费者则与前者相同，只是需要修改指定监听的队列名。此处由于创建的交换机类型是fanout广播类型不需要去

overfit同步小助手 2024-03-06 22:03:55 0 收藏

基于Spark协同过滤的农产品个性推荐系统

本系统是一个基于Python技术栈开发的农产品在线交易平台。通过集成了pyspark、hadoop、django、scrapy、vue、element-plus等多个优秀开源框架，实现了全方位的功能覆盖，并采用了协同过滤算法为用户推荐相关农产品。首先，我们使用Scrapy爬虫框架抓取惠农网站上的农产

overfit同步小助手 2024-03-06 22:03:39 0 收藏

Hive【内部表、外部表、临时表、分区表、分桶表】【总结】

分区提供了一个隔离数据和优化查询的可行性方案，但是并非所有的数据集都可以形成合理的分区，分区的数量也不是越多越好，过多的分区条件可能导致很多分区上没有数据。分桶表会将指定的列的值进行哈希散列，并对bucket（桶数量）取余，然后存储到对应的bucket中。分区表和分桶表的本质都是将数据按照不同粒度进

overfit同步小助手 2024-03-06 22:03:14 0 收藏

大数据6大维度透视，了解一个企业的真实情况

每次在评估一个企业的综合实力和市场地位时，投资者、分析师和业界专家会从多个维度进行深入分析。这些维度不仅反映了企业的当前状况，还能为预测其未来发展趋势提供线索。本文将详细探讨这几个关键维度，以帮助读者更全面地理解企业评估的多维度视角。

overfit同步小助手 2024-03-06 21:03:24 0 收藏

centos7-dmhs同步kafka搭建部署（保姆级）

所需空间: 1869M请选择安装目录 [/home/dmdba/dm/dmdbms]:

overfit同步小助手 2024-03-06 19:03:23 0 收藏

Flink StreamGraph生成过程

在 Flink 中，StreamGraph 是数据流的逻辑表示，它描述了如何在 Flink 作业中执行数据流转换。StreamGraph 是 Flink 运行时生成执行计划的基础。使用DataStream API开发的应用程序，首先被转换为 Transformation，再被映射为StreamGra

overfit同步小助手 2024-03-06 18:03:50 0 收藏

【Redis项目实战】使用Springcloud整合Redis分布式锁+RabbitMQ技术实现高并发预约管理处理系统

高并发预约管理：系统能够处理大量用户同时预约倾听者的情况，通过使用分布式锁来保证同一时间段只有一个用户可以进行预约，防止冲突和混乱。分布式锁实现：系统使用Redis作为分布式锁的存储介质，通过设置键值对来实现分布式锁。具体地，使用一组表来存储倾听者的预约情况，表名由倾听者的ID和日期组成。每个表使用

overfit同步小助手 2024-03-06 18:03:38 0 收藏

Flink中StateBackend（工作状态）与Checkpoint（状态快照）的关系

只有基于 RocksDB state backend的状态快照才支持增量checkpoint，基于heap的并不支持默认情况下 checkpoint 是禁用的，需要手动开启：Flink状态分为Keyed State和非keyed State:Keyed State，可以使用RocksDB state

overfit同步小助手 2024-03-06 17:03:27 0 收藏

使用HiveMQ实现Android MQTT

即有提供MQTT的服务器端，也有提供客户端，而且官方都给他跳转了，那我就用它的库来实现吧！使用了之后才发现，这个库是真的好用啊，封装的非常好，代码写起来特别简洁，响应式编程，支持异步，可以使用Java自带的，也可以使用RxJava或Reactor，HiveMQ的断线自动重连做的也比较好。，这是Ecl

overfit同步小助手 2024-03-06 16:03:54 0 收藏

Hadoop运行环境搭建

（3）source一下/etc/profile文件，让新的环境变量PATH生效。（1）bin目录：存放对Hadoop相关服务（HDFS,YARN）进行操作的脚本。（1）新建/etc/profile.d/my_env.sh文件。（2）etc目录：Hadoop的配置文件目录，存放Ha

overfit同步小助手 2024-03-06 16:03:51 0 收藏

python毕设选题 - 大数据上海租房数据爬取与分析可视化 -python 数据分析可视化

# 1 前言🔥 这两年开始毕业设计和毕业答辩的要求和难度不断提升，传统的毕设题目缺少创新和亮点，往往达不到毕业答辩的要求，这两年不断有学弟学妹告诉学长自己做的项目系统达不到老师的要求。为了大家能够顺利以及最少的精力通过毕设，学长分享优质毕业设计项目，今天要分享的是🚩 基于大数据上海租房数据爬取

overfit同步小助手 2024-03-06 16:03:36 0 收藏

想从事大数据方向职场小白看过来，数据方面的一些英文解释

—（Not Only SQL）不仅仅是 SQL。是一种广义的数据库管理系统范畴，与传统的关系型数据库管理系统（RDBMS）相对。NoSQL数据库的设计目标是解决关系型数据库在大规模数据集和高并发环境下的一些限制和挑战。 NoSQL数据库主要指文档、列、图和键值。没有表。ESB代表企业服务总线（E

overfit同步小助手 2024-03-06 16:03:28 0 收藏

Zookeeper的分布式文件系统与存储

1.背景介绍1. 背景介绍Zookeeper是一个开源的分布式协调服务，它为分布式应用提供一致性、可靠性和可扩展性等特性。Zookeeper的核心功能包括集群管理、配置管理、领导选举、分布式同步等。在分布式系统中，文件系统和存储是非常关键的组成部分，Zookeeper作为分布式协调服务，也可以用于管

overfit同步小助手 2024-03-06 16:03:15 0 收藏