大数据 - overfit.cn

大数据开发--基于Hive的航空公司客户价值分析案例

本文主要以利用Hive对数据进行处理，Hive 是一个适用于处理大规模数据的开源数据仓库工具，提供了 SQL-Like 查询语言和良好的容错性，可以方便地进行数据查询和分析。通过对航空公司客户数据进行清洗分析，并通过K-means聚类将客户划分成几种不同的群体，根据不同群体中的各个特征指标，进一步得

overfit同步小助手 2024-07-10 14:03:40 0 收藏

【会议征稿】2024年应用计算智能、信息学与大数据国际会议（ACIIBD 2024，7月26-28）

2024年应用计算智能、信息学与大数据国际会议（ACIIBD 2024）2024 International Conference on Applied Computational Intelligence, Informatics and Big Data

overfit同步小助手 2024-07-10 13:03:52 0 收藏

Hadoop编程课程设计：蔬菜统计（源码私聊）

在开发期间，有目的去用学习到的一些东西，仔细的考虑工作流程的规律和步骤，充分的利用手中的开发工具，使自己的开发精确，让用户能够尽量简单的进行操作。但还有很多不足之处，这些都要在今后的设计工作中要努力改进和完善的。通过实际的开发项目，我学习并掌握各种技术知识和技能。深入了解Hadoop生态系统的各个组

overfit同步小助手 2024-07-10 13:03:18 0 收藏

Java导出千万级大数据到CSV文件

在实际应用中，我们经常需要从数据库中导出大量数据到CSV文件。如果数据量很大，一次性加载所有数据可能会导致内存溢出或者性能问题。为了解决这个问题，我们可以使用流式查询的方式逐行读取数据库，并将数据写入CSV文件，从而减少内存占用并提高性能。本文将介绍如何使用Java实现这一功能，并给出详细的代码示例

overfit同步小助手 2024-07-10 12:03:47 0 收藏

企业spark案例 —— 出租车轨迹图表展示（头歌）

text: '各出租车平台年使用率'text: '各平台各服务数量'

overfit同步小助手 2024-07-10 12:03:32 0 收藏

Kafka第四篇——生产数据总体概括，源码解析分区策略，数据收集器，Sender发送线程，key值

流程图以及总体概述拦截器分区器以及分区计算策略为啥进行分区计算？producer生产者怎么知道有哪些分区？分区计算如何自定义实现分区器？想说的在图里啦！宝宝！💡如果key值忘记传递了呢！？数据校验数据收集器注意Sender发送线程

overfit同步小助手 2024-07-10 12:03:23 0 收藏

详解 HBase 的常用 API

案例 1：实现将 HDFS 中的数据写入到 Hbase 表中// 构建 FruitMapper 用于读取 HDFS 中的文件数据@override// 构建 FruitReducer 用于将 HDFS 中的文件数据写入 Hbase// TableReducer 默认的输出value类型是 Mutat

overfit同步小助手 2024-07-10 11:04:00 0 收藏

【实战】kafka3.X kraft模式集群搭建

相信很多同学都用过Kafka2.0吧，其中需要zookepper集群来做元数据管理和集群选举，大大增加了运维成本，而且也很是影响Kafka性能。言归正传今天我们就分享一期Kafka3.x Kraft模式集群搭建，简直不要太爽。

overfit同步小助手 2024-07-10 11:03:37 0 收藏

Kafka 之 ZooKeeper —— 稳定版本、弃用、操作

ZooKeeper 是一个分布式的协调服务，主要用于维护集群的元数据信息和配置信息。Kafka 集群依赖于 ZooKeeper 来存储和管理 Kafka 的元数据信息和配置信息。注：以上这些都低版本 Kafka 依赖 ZooKeeper 实现的，在高版本 Kafka 中，已经摆脱了对 ZooKeep

overfit同步小助手 2024-07-10 11:03:30 0 收藏

arm上的kafka测试

我们通常将Apache Kafka用在两类程序：1. 建立实时数据管道，以可靠地在系统或应用程序之间获取数据；2. 构建实时流应用程序，以转换或响应数据流。模型如下：Producers：可以有很多的应用程序，将消息数据放入到Kafka集群中。Consumers：可以有很多的应用程序，将消息数据从Ka

overfit同步小助手 2024-07-10 09:03:48 0 收藏

使用Flink CDC实现 Oracle数据库数据同步（非SQL）

Flink CDC 是一个基于流的数据集成工具，旨在为用户提供一套功能更加全面的编程接口（API）。该工具使得用户能够以 YAML 配置文件的形式实现数据库同步，同时也提供了Flink CDC Source Connector API。

overfit同步小助手 2024-07-10 08:03:47 0 收藏

9 张图带你理解 Kafka 中高水位ＨＷ

HW 是 Kafka 中 Offset 的一个值，HW 作为一个边界，Offset 小于 HW 的消息被称为已提交消息，这部分消息可以被消费者进行拉取消费，大于等于 HW 的消息被称为未提交消息，不能被消费者拉取。如下图：Offset 小于 108 的消息可以被消费者消费，Offset 大于等于 1

overfit同步小助手 2024-07-10 07:03:54 0 收藏

【公益案例展】四川农担x中电金信——大数据智能风控平台建设

‍中电金信公益案例本项目案例由中电金信投递并参与数据猿与上海大数据联盟联合推出的#榜样的力量# 《2024中国数据智能产业最具社会责任感企业》榜单/奖项”评选。大数据产业创新服务媒体——聚焦数据· 改变商业1、外部经济环境带来的挑战近几年经济发展和市场需求的挑战下，企业经营压力增加，一些特定行业客户

overfit同步小助手 2024-07-10 07:03:51 0 收藏

技术周总结 2024.07.01~07.07(Spark & Scala)

Spark代码编程

overfit同步小助手 2024-07-10 07:03:47 0 收藏

Skywalking+logback+Flink 日志系统说明书

以往系统日志信息存储在系统目录下的日志文件中，分散的现状难以统一管理，日志信息未与业务建立直接联系，导致日志追踪困难。日志中心结合业务功能和数据模型管理功能将日志数据与业务进行结合，支持接口的链路追踪，逻辑删除、更新、插入数据操作的前后数据对比，方便用户即使追踪问题。日志中心面向用户包括开发人员和产

overfit同步小助手 2024-07-10 07:03:41 0 收藏

基于大数据+爬虫+数据可视化的的亚健康人群数据可视化设计和实现(源码+LW+部署讲解)设计和实现(源码+LW+部署讲解)

基于大数据的亚健康人群数据可视化是一种利用数据分析和图形展示技术，对大量亚健康人群数据进行整合、分析和呈现的方法。通过收集和处理来自各种来源的数据，该系统能够揭示亚健康状态的分布特征、影响因素和发展趋势，为健康管理和政策制定提供科学依据。在数据可视化方面，系统采用了多种直观的图形展示方式。通过颜色、

overfit同步小助手 2024-07-10 07:03:26 0 收藏

RabbitMQ（集群相关部署）

在centos8 服务器，3台服务器，分别进行MQ的集群步骤

overfit同步小助手 2024-07-10 05:03:50 0 收藏

深入解析Spark：定义、架构、原理、应用场景及常用命令

Apache Spark 是一个功能强大、易于使用的大数据处理工具，广泛应用于各种数据处理和分析场景。在实际应用中，用户可以根据具体需求选择合适的 Spark 组件和 API，充分发挥 Spark 的强大功能。本文将全面介绍 Spark，包括其定义、架构、工作原理、应用场景及常见命令体系，帮助读者深

overfit同步小助手 2024-07-10 04:03:27 0 收藏

5.数据仓库与数据挖掘期末复习

利用3范式对区域表、店铺表、日期表、销售表、目标表进行建模？

overfit同步小助手 2024-07-10 03:03:08 0 收藏

PrestoHive整合原理与代码实例讲解

Presto-Hive整合原理与代码实例讲解1.背景介绍在大数据时代,数据分析和处理已经成为企业和组织的核心需求之一。Apache Hive作为建立在Hadoop之上的数据仓库工具,为结构化数据的查询和分析提供了强大的SQL支持。然而,随着数据量的不断增长和查询需求的复杂性提

overfit同步小助手 2024-07-10 01:03:53 0 收藏