大数据 - overfit.cn

基于Kylin的数据统计分析平台架构设计与实现

前言此项目是我在TP-LINK公司云平台部门做的一个项目，总体包括云上数据自动化统计流程的设计和组件的开发。目的是为了对云平台上的设备和用户数据做多维度的统计和分析，以及便于观察设备数据的历史趋势，让业务部门更好地做业务决策。整体的架构与数据流向如下图所示，采用Hive做数据仓库，使用Spark实现

overfit同步小助手 2023-11-22 18:03:51 0 收藏

hive sql 拆解字段

在Hive SQL中，拆解字段通常涉及到字符串操作，如将一个包含多个部分的字符串拆解成多个独立的字段。2. SPLIT(str, delimiter)：使用SPLIT函数可以根据指定的分隔符将字符串拆分为一个数组，这对于将含有多个值的字符串拆分成独立的字段非常有用。你可以指定起始位置和要提取的长度。

overfit同步小助手 2023-11-22 16:03:37 0 收藏

Nacos与Eureka的区别

大家好我是苏麟今天说一说Nacos与Eureka的区别.

overfit同步小助手 2023-11-22 15:03:38 0 收藏

Flink CDC MySQL同步MySQL错误记录

错误1：Connector ‘mysql-cdc’ can only be used as a source. It cannot be used as a sink.问题2：Encountered “AUTO_INCREMENT”问题3：Encountered “DEFAULT”处理方法：删除AU

overfit同步小助手 2023-11-22 14:03:47 0 收藏

2023.11.10 hadoop,hive框架概念,基础组件

任务:1.确认hadoop,hive环境搭建完成2.确认能使用hadoop,hive启动服务的命令,datagrip连接hive服务操作3.背诵/流畅表达 hadoop的架构,各组件之间的关系4.说明hive的流程,元数据的概念。

overfit同步小助手 2023-11-22 12:03:28 0 收藏

三十分钟学会zookeeper

一些分布式系统通过复制数据来提高系统的可靠性和容错性，并且将数据的不同的副本存放在不同的机器在数据有多份副本的情况下，如果网络、服务器或者软件出现故障，会导致部分副本写入成功，部分副本写入失败。这就造成各个副本之间的数据不一致，数据内容冲突。

overfit同步小助手 2023-11-22 11:03:43 0 收藏

SpringCloud微服务【实用篇】| Eureka注册中心、Ribbon负载均衡

overfit同步小助手 2023-11-22 08:03:15 0 收藏

Kafka、RabbitMQ、RocketMQ中间件的对比

Kafka是Apache下的一个子项目，是一个高性能跨语言分布式Publish/Subscribe消息队列系统，而Jafka是在Kafka之上孵化而来的，即Kafka的一个升级版。支持Hadoop数据并行加载，对于像Hadoop的一样的日志数据和离线分析系统，但又要求实时处理的限制，这是一个可行的解

overfit同步小助手 2023-11-22 07:03:23 0 收藏

数据仓库-日期维度表的设计与实现

本文基于python的chinese_calendar和pymysql库编写了一个生成日期维表（日期-工作日-节假日维度表），用于对业务主题表进行维度建模，实现方式简单，一键生成，数据可靠。

overfit同步小助手 2023-11-22 05:03:10 0 收藏

Introduction to Hadoop Ecosystem for Data Science

作者：禅与计算机程序设计艺术 1.简介Hadoop Ecosystem 是一个基于Java的开源框架，主要用于存储、处理和分析海量数据。其提供的组件包括HDFS（Hadoop Distributed File System），MapReduce（分布式计算框架）

overfit同步小助手 2023-11-22 02:03:46 0 收藏

SpringCloudStream集成RabbitMQ实现消息收发

SpringCloudStream 是一个构建高扩展和事件驱动的微服务系统的框架，用于连接共有消息系统，官网地址：。整体上是把各种花里胡哨的MQ产品抽象成了一套非常简单的统一的编程框架，以实现事件驱动的编程模型。社区官方实现了RabbitMQ，Apache Kafka，Kafka Stream和

overfit同步小助手 2023-11-22 01:03:43 0 收藏

【flink-sql实战】flink 主键声明与upsert功能实战

flink主键声明与upsert

overfit同步小助手 2023-11-22 01:03:40 0 收藏

Linux——kafka常用命令

kafka常用命令

overfit同步小助手 2023-11-22 00:03:51 0 收藏

JAVA操作HDFS集群

本文介绍了使用Java操作HDFS集群的方法，具体的操作包括创建目录、删除文件、移动与重命名文件、查询文件信息以及文件的上传和下载等。通过示例代码和截图展示了每个操作的实际效果，帮助读者理解和使用HDFS安全模式和相关操作。

overfit同步小助手 2023-11-21 22:03:35 0 收藏

在 Flutter 中使用 Hive 的终极指南 Hive：适用于 Flutter 应用程序的完美本地数据库

Hive for Flutter：快速轻量级本地数据库Hive 是用于 Flutter 和 Dart 应用程序的快速轻量级键值数据库。这是在本地存储少量数据的绝佳选择，例如用户偏好、游戏分数或购物车。对于需要能够离线工作的应用程序，Hive 也是一个不错的选择。

overfit同步小助手 2023-11-21 22:03:30 0 收藏

Hbase入门篇03---Java API使用，HBase高可用配置和架构设计

overfit同步小助手 2023-11-21 21:03:46 0 收藏

Flink SQL 表值聚合函数（Table Aggregate Function）详解

overfit同步小助手 2023-11-21 19:03:29 0 收藏

2023_Spark_实验十六：编写LoggerLevel方法及getLocalSparkSession方法

掌握基于IDEA开发Spark项目的配置，依赖管理，编写LoggerLevel方法及getLocalSparkSession方法

overfit同步小助手 2023-11-21 18:03:13 0 收藏

RabbitMQ之交换机

Fanout 这种类型非常简单。正如从名称中猜到的那样，它是将接收到的所有消息广播到它知道的所有队列中。系统中默认有些 exchange 类型我们希望将日志消息写入磁盘的程序仅接收严重错误(errros)，而不存储哪些警告(warning)或信息(info)日志消息避免浪费磁盘空间。Fanout 这

overfit同步小助手 2023-11-21 17:03:40 0 收藏

大数据面试题：Spark和MapReduce之间的区别？各自优缺点？

Spark的DAGScheduler相当于一个改进版的MapReduce，如果计算不涉及与其他节点进行数据交换，Spark可以在内存中一次性完成这些操作，也就是中间结果无须落盘，减少了磁盘IO的操作。有一个误区，Spark是基于内存的计算，所以快，这不是主要原因，要对数据做计算，必然得加载到内存，H

overfit同步小助手 2023-11-21 17:03:15 0 收藏