大数据 - overfit.cn

hive location更新&hive元数据表详解

由于HDFS支持的文件格式很多，而建Hive表时候也可以指定各种文件格式，Hive在将HQL解析成MapReduce时候，需要知道去哪里，使用哪种格式去读写HDFS文件，而这些信息就保存在这几张表中。该表保存文件存储的基本信息，如INPUT_FORMAT、OUTPUT_FORMAT、是否压缩等。主要

overfit同步小助手 2024-01-27 01:03:23 0 收藏

大数据的概念

大数据是指规模巨大、复杂度高、以及传统方法难以处理和分析的数据集合。这些数据集通常包含结构化、半结构化和非结构化的数据，产生于各种来源，包括传感器、社交媒体、日志文件、传统数据库等。大数据可以用来揭示隐藏的模式、趋势和洞察力，从而帮助组织和企业做出更准确的决策、提供个性化的服务、改进运营效率等。因为

overfit同步小助手 2024-01-26 23:03:54 0 收藏

【FLink消费Kafka之FlinkConsumer到KafkaSource的转变】

上篇介绍了flink的入门程序wordcount，在项目开发过程中，最常接触的还是跟各种源头系统打交道，其中消费接收kafka中的数据是最常见的情况，而flink在1.15版本后连接kafka的依赖包发生了变化，之前的flink版本使用的依赖包是flink-connector-kafka_2.1x（

overfit同步小助手 2024-01-26 23:03:50 0 收藏

掌握大数据--Hadoop全面指南

Hadoop全面指南，希望能帮助大家理解Hadoop

overfit同步小助手 2024-01-26 23:03:43 0 收藏

2023_Spark_实验三十一：开发Kafka偏移量的公共方法

基于scala，开发代码，将消费者组的offset信息存入mysql数据库

overfit同步小助手 2024-01-26 23:03:40 0 收藏

字节跳动 MapReduce - Spark 平滑迁移实践

近一年内字节跳动 Spark 作业数量经历了从 100 万到 150 万的暴涨，天级数据 Flink Batch 从 20 万涨到了 25 万，而 MapReduce 的用量则处于缓慢下降的状态，一年的时间差不多从 1.4 万降到了 1 万左右，基于以上的用量情况，MapReduce 作为我们使用的

overfit同步小助手 2024-01-26 23:03:27 0 收藏

数据仓库入门介绍框架（附带完整项目实战）

一、诞生背景- 企业数据分析需要：各个部门自己建立独立的数据抽取系统，导致数据不一致

overfit同步小助手 2024-01-26 22:03:48 0 收藏

大数据之旅--Hadoop入门

Hadoop是Apache旗下的一个用Java语言实现开源软件框架，是一个存储和计算大规模数据的软件平台。-------几张图让你理解Hadoop的架构

overfit同步小助手 2024-01-26 22:03:39 0 收藏

【数据库原理】（38）数据仓库

定义数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合，用于支持企业管理和决策制定过程。它专注于存储大量的历史数据，以便进行分析和提取洞见，从而辅助管理决策。与数据库的主要区别数据内容: 数据仓库存储历史数据，用于分析和报告，而数据库通常存储当前的事务数据。数据目标: 数据仓库面向

overfit同步小助手 2024-01-26 20:03:51 0 收藏

【Hive_03】单行函数、聚合函数、窗口函数、自定义函数、炸裂函数

Hive会将常用的逻辑封装成函数给用户进行使用，类似于Java中的函数。好处：避免用户反复写逻辑，可以直接拿来使用。重点：用户需要知道函数叫什么，能做什么。Hive提供了大量的内置函数，按照其特点可大致分为如下几类：单行函数、聚合函数、炸裂函数、窗口函数。以下命令可用于查询所有内置函数的相关信息。1

overfit同步小助手 2024-01-26 20:03:48 0 收藏

kafka配置多个消费者groupid kafka多个消费者消费同一个partition（java）

kafka在一个消费者组内设置多个消费者

overfit同步小助手 2024-01-26 20:03:42 0 收藏

HiveSQL基础命令02

分区是针对文件夹（内部文件例如.txt也会被分），原理和SQL的group by类似,是将原表中一个或多个文件，通过给新字段对应原表字段分区，分成多个文件夹存放文件，存放到分区表中，这样在扫描特定文件（以分区字段来查询）的时候不需要全盘扫描。3. 分桶规则用的是: 哈希取模分桶法, 简单来说, 就是

overfit同步小助手 2024-01-26 20:03:35 0 收藏

【Flink-1.17-教程】-【二】Flink 集群搭建、Flink 部署、Flink 运行模式

YARN 上部署的过程是：客户端把 Flink 应用提交给 Yarn 的 ResourceManager，Yarn 的 ResourceManager 会向 Yarn 的 NodeManager 申请容器。在这些容器上， Flink 会部署 JobManager 和 Ta

overfit同步小助手 2024-01-26 18:03:47 0 收藏

还在做 Hadoop 生态？那我祝你一帆风顺

上回说到，我决定走出大数据的围城，用另一种视角审视与复盘行业。文章发出后收到很多读者的反馈，其中呼声比较高的一条是希望我能聊聊大数据的行业前景与思考。针对这个问题，后面我会分享一些自己的经验与思考，同时，也会邀请来自各个大厂及正在相关方向创业的朋友做客（techinstitute），相信届时可以解答

overfit同步小助手 2024-01-26 18:03:42 0 收藏

RabbitMQ如何保证顺序消费

很多时候，消息的消费是不⽤保证顺序的，⽐如借助mq实现订单超时的处理。但有些时候，业务中可能会存在多个消息需要顺序处理的情况，⽐如⽣成订单和扣减库存消息，那肯定是先执⾏⽣成订单的操作，再执⾏扣减库存的操作。那么这种情况下，是如何保证消息顺序消费的呢？⾸先，为了效率，我们可以设置多个队列都来处理顺

overfit同步小助手 2024-01-26 18:03:37 0 收藏

Canal+Kafka实现MySQL与Redis数据同步（一）

在很多业务情况下，我们都会在系统中加入redis缓存做查询优化。如果数据库数据发生更新，这时候就需要在业务代码中写一段同步更新redis的代码。这种数据同步的代码跟业务代码糅合在一起会不太优雅，能不能把这些数据同步的代码抽出来形成一个独立的模块呢，答案是可以的。

overfit同步小助手 2024-01-26 16:03:14 0 收藏

大数据----33.hbase中的shell文件操作

这些是关于HBase在表中操作的命令。create: 创建一个表。list: 列出HBase的所有表。disable: 禁用表。is_disabled: 验证表是否被禁用。enable: 启用一个表。is_enabled: 验证表是否已启用。describe: 提供了一个表的描述。alter: 改变

overfit同步小助手 2024-01-26 15:03:27 0 收藏

毕业设计：python商品销售数据采集分析可视化系统京东商品数据爬取+可视化大数据 python（源码）✅

overfit同步小助手 2024-01-26 15:03:13 0 收藏

一文详解Docker镜像

Docker镜像是一个轻量级、独立的、可执行的软件包，包含了运行应用程序所需的一切：代码、运行时环境、系统工具和库。Docker镜像是不可修改的，任何更改都会创建一个新的镜像就是把一个应用在硬盘上的文件、及其运行环境、部分系统函数库文件一起打包形成的文件包。这个文件包是只读的。镜像的名称组成：镜名称

overfit同步小助手 2024-01-26 14:03:47 0 收藏

搭建flink集群 —— 筑梦之路

一个 Flink 集群总是包含一个 JobManager 以及一个或多个 Flink TaskManager。Flink TaskManager 运行 worker 进程，负责实际任务 Tasks 的执行，而这些任务共同组成了一个 Flink Job。Flink中的工作进程。通常在Flink中会有

overfit同步小助手 2024-01-26 13:04:00 0 收藏