大数据 - overfit.cn

【HBase原理及应用实训课程】第五章 HBase与MapReduce的集成

一、importTSV 工具概述importTSV 是 HBase 提供的一个命令行工具，将存储在 HDFS 上的数据文件，通过指定的分隔符解析后，导入到 HBase 表中。这样的方式导入数据与正常写入流程不同的是，跳过了 WAL、Memcache 与 Flush 的过程，直接将 HFile 文件移

overfit同步小助手 2024-12-11 23:03:30 0 收藏

2023_Spark_实验九：编写WordCount程序（Scala版）

Scala版本的wordcount

overfit同步小助手 2024-12-11 22:04:01 0 收藏

RabbitMQ运维

overfit同步小助手 2024-12-11 22:03:24 0 收藏

【什么是RabbitMQ】

RabbitMQ是一个基于AMQP（Advanced Message Queuing Protocol）协议的开源消息队列系统。AMQP是一个开放标准的应用层协议，为面向消息的中间件设计，它定义了一个可互操作的协议模型，用于在分布式系统中进行高效、可靠的消息传输。RabbitMQ作为AMQP协议的一

overfit同步小助手 2024-12-11 21:03:54 0 收藏

信息差的市场研究支持：大数据如何支持市场研究

第一部分：引言第1章：市场研究的重要性与大数据的崛起1.1 市场研究的传统方法与局限性市场研究是企业决策过程中至关重要的一环。传统市场研究方法主要包括问卷调查、访谈、焦点小组讨论、实验研究等。这些方法在一定程度上能够帮助企业了解

overfit同步小助手 2024-12-11 20:03:45 0 收藏

期末复习-Hadoop名词解释+简答题+代码题hive

如果从字面意思来看，大数据指的是海量数据；从大数据特点来看，大数据具有海量、流转快、数据类型丰富及价值密度低等特点；如果从技术角度来看，大数据的战略意义不仅在于掌握庞大的数据，还包括对这些数据进行有效处理；换言之，如果把大数据比作一种产业，那么这种产业盈利的关键在于提高对大数据的加工能力，通过加工技

overfit同步小助手 2024-12-11 20:03:34 0 收藏

数据湖的概念（包含数据中台、数据湖、数据仓库、数据集市的区别）--了解数据湖，这一篇就够了

了解数据湖，这一篇就够了：数据湖的概念（包含数据中台、数据湖、数据仓库、数据集市的区别）

overfit同步小助手 2024-12-11 18:03:29 0 收藏

Zookeeper Exporter 使用教程

Zookeeper Exporter 使用教程项目地址:https://gitcode.com/gh_mirrors/zo/zookeeper_exporter1. 项目介绍Zookeeper Exporter 是一个用于将 Zookeeper 的监控指标导出为 Prometheus 格式的开源项目

overfit同步小助手 2024-12-11 16:03:44 0 收藏

Filter过滤器的使用

Filter过滤器是一种部署在Web服务器上的组件，它能够对客户端发送到服务器的请求以及服务器返回给客户端的响应进行拦截和处理。通过Filter过滤器，开发者可以在请求到达Servlet之前或响应发送给客户端之前对它们进行各种操作。当用户请求某个Servlet时，会先执行部署在这个请求上的Filte

overfit同步小助手 2024-12-11 14:03:41 0 收藏

flink 内存配置（三）：设置JobManager内存

JobManager是Flink集群的控制元素。Flink由3部分组成：资源管理器（Resource Manager）、调度器（Dispatcher）和每个运行的Flink作业对应的JobMaster。注意下面的讲解适用于JobManager 1.11之后的版本。

overfit同步小助手 2024-12-11 14:03:24 0 收藏

【Apache Paimon】-- 4 -- Flink 消费 kafka 数据，然后写入 paimon

注意：此案例以阿里云 OSS 作为 checkpoint 和 apache paimon 的存储介质，存储格式默认为 parquet。// Step 3、若使用 oss 作为 ckp/sep 的存储介质，需要加载 flink checkpoint 全局变量。注意：需要在项目 package 中创建包

overfit同步小助手 2024-12-11 13:03:26 0 收藏

hadoop5.1和5.2

文章目录hadoop第五章5.1 筛选日志文件生成序列化文件5.1.1、设置MapReduce输入格式5.1.2、设置MapReduce输出格式5.1.3、任务实现筛选日志文件并生成序列化文件（完整代码）5.2 使用Hadoop Java API 读取序列化文件（完整代码）列举子目录列举文

overfit同步小助手 2024-12-11 13:03:14 0 收藏

HBase的Phoenix框架

Hbase适合存储大量的对关系运算要求低的NOSQL数据，受Hbase 设计上的限制不能直接使用原生的API执行在关系数据库中普遍使用的条件判断和聚合等操作。Hbase很优秀，一些团队寻求在Hbase之上提供一种更面向普通开发人员的操作方式，Apache Phoenix即是。Phoenix 基于Hb

overfit同步小助手 2024-12-11 12:03:40 0 收藏

Kylin Server V10 下 Kafka 集群部署

首先介绍了ZooKeeper 的集群部署，然后介绍了 Kafka 集群的部署以及集群的验证。

overfit同步小助手 2024-12-11 12:03:30 0 收藏

精通WPF界面设计与开发

本文还有配套的精品资源，点击获取简介：WPF，作为.NET Framework的一部分，通过XAML提供强大的界面开发能力，结合数据绑定、丰富的控件库、灵活的布局系统、多媒体支持和样式模板等特性，使得开发者可以创建具有丰富视觉效果的应用程序。此外，通过利用MahApps.Metro、Avalo

overfit同步小助手 2024-12-11 11:03:35 0 收藏

[实战-11] FlinkSql 设置时区对TIMESTAMP和TIMESTAMP_LTZ的影响

设置flink程序运行期间得时区，flink的内置数据类型TIMESTAMP(3)，我们设置水位线都是基于TIMESTAMP(3)类型，当我们flinkSql 查询flink表的时候，因为时区不同 TIMESTAMP 展示给我们的字符串也是不同的。mysql时区是Asia/Shanghai。

overfit同步小助手 2024-12-11 10:03:45 0 收藏

Hive修改表中的某个值

值得注意的是，以上两种方案会将整个表的数据复制一遍，如果表很大，可能会消耗较多的时间和资源。对于大数据量的情况，可以考虑使用MapReduce或Spark等分布式计算引擎来对数据进行修改。Hive是一个数据仓库工具，它提供了数据的静态查询功能，而不能处理在线事务。使用INSERT语句，将原表中的数据

overfit同步小助手 2024-12-11 10:03:16 0 收藏

Python毕业设计选题：基于python的白酒数据推荐系统_django+hive

系统采用B/S架构，Python语言作为主要开发语言，MySQL技术创建和管理数据库。系统面向管理员和终端用户两大主体，通过精心设计的功能模块满足不同需求。管理员端包含系统首页、个人中心、用户管理、白酒管理以及系统管理等核心功能，确保了白酒信息的准确维护和用户数据的安全管理。对于前台用户，系统提供了

overfit同步小助手 2024-12-11 09:03:15 0 收藏

Hadoop分布式集群搭建教程

本篇博客主要讲解如何在Linux虚拟机上搭建Hadoop的分布式集群

overfit同步小助手 2024-12-11 08:03:39 0 收藏

毕业设计项目大数据共享单车数据分析与可视化(源码分享)

🔥 这两年开始毕业设计和毕业答辩的要求和难度不断提升，传统的毕设题目缺少创新和亮点，往往达不到毕业答辩的要求，这两年不断有学弟学妹告诉学长自己做的项目系统达不到老师的要求。为了大家能够顺利以及最少的精力通过毕设，学长分享优质毕业设计项目，今天要分享的是🚩基于大数据的共享单车数据分析与可视化🥇学

overfit同步小助手 2024-12-11 06:03:42 0 收藏