大数据 - overfit.cn

对于大数据的学习者来讲，深入理解数据仓库是很重要的。本文将对数据仓库的基本概念进行讲解，大家可以在看完数据仓库的概念、主要特征以及分层架构之后，真正理解数据仓库是什么。数据仓库，全称是Data Warehouse，简写DWH。数据仓库的目的是构建面向分析的集成化数据环境，为企业提供决策支持。它出于分

overfit同步小助手 2023-07-12 17:04:22 0 收藏

5. Hive的三种去重方法

distinct 不能单独用于指定某一列，必须放在 select 中所有字段的最前面，否则会报错。会先按照指定的列进行分组，然后在每个分组内进行聚合操作，这样可以减少比较的数据量。，并不是只对紧跟其后的 column1 去重。实现去重时，它们的效率会受到多个因素的影响，包括数据规模、数据分布、查询条

overfit同步小助手 2023-07-12 17:04:11 0 收藏

2023年4月的编程语言排行榜，有你中意的开发语言吗？

由此可见，编程语言的基本逻辑是相通的，并且Java在语言互通这方面有独特的优势，比如它的开源、跨平台、易用性等特点。所以学好Java再去学习其他语言有优势，而Java作为我们北大青鸟的重点课程，全程线下小班面授，真实项目贯穿整个学习周期，不仅能学到Java的技术，也能掌握它在实际项目中的应用情况，积

overfit同步小助手 2023-07-12 15:04:12 0 收藏

安装Mysql时：没有可用软件包 mysql-server。

同桌在centos7安装mysql报“没有可用软件包 mysql-server”怎么办？慌张，我几个命令就可帮他解决了

overfit同步小助手 2023-07-12 12:04:42 0 收藏

RabbitMQ管理界面介绍

1.管理界面概览connections：无论生产者还是消费者，都需要与RabbitMQ建立连接后才可以完成消息的生产和消费，在这里可以查看连接情况channels：通道，建立连接后，会形成通道，消息的投递获取依赖通道。Exchanges：交换机，用来实现消息的路由Queues：队列，即消息队列，消息

overfit同步小助手 2023-07-12 10:04:08 0 收藏

【flink】SinkUpsertMaterializer

在flink cdc同步数据时，基于sql的实现方式中发现了作业DAG有个算子，而且检查checkpoint历史时发现该算子state越来越大，有必要搞清楚为什么会多了这个算子，作用又是什么。通过算子名称定位到了源码为类,这个算子将输入的记录以作区分保存到state中，并为下游算子提供一下upser

overfit同步小助手 2023-07-12 09:04:29 0 收藏

python连接数据库

python连接不同的数据库

overfit同步小助手 2023-07-12 09:04:06 0 收藏

IPRAN网络结构智能优化

生产建设中效率、安全都是永恒的主题，本文针对当前通信行业IPRAN网络中存在很多超大环、超大设备对等结构，安全性低，网络效率差等问题，提出网络结构分析与解决方案，从数据模型设计、关键参数配置、网络拓扑计算、网络优化分析等多个方面进行优化和改进，对现有IPRAN网络进行数据分析，根据网络资源的实际情况

overfit同步小助手 2023-07-12 08:04:21 0 收藏

Flink读写Doris操作介绍

Flink Doris Connector 可以支持通过 Flink 操作（读取、插入、修改、删除） Doris 中存储的数据。可以将 Doris 表映射为 DataStream 或者 Table。

overfit同步小助手 2023-07-12 08:04:01 0 收藏

HBase性能调优（二）

NameNode的元数据备份使用SSD、定时备份 NameNode 上的元数据，每小时或者每天备份，如果数据极其重要，可以5~10分钟备份一次。备份可以通过定时任务复制元数据目录即可。2、为NameNode指定多个元数据目录，使用dfs.name.dir或者dfs.namenode.name.dir

overfit同步小助手 2023-07-12 07:04:24 0 收藏

电影票房之数据分析（Hive）

进入hivehive#在hive中创建数据库 mydb#使用数据库 mydbuse mydb;#创建表moviecleaned并使用"/t"分割字段#将本地清洗后的数据导入moviecleaned表中#创建top10_boxoffice表，用来存放数据查询的结果#查询，并将结果导入top10_box

overfit同步小助手 2023-07-12 07:04:11 0 收藏

Hive表的基础查询操作

springboot：整合Kafka

zookeeper关闭默认管理端口admin.serverPort=8080

大数据：HDFS操作的客户端big data tools和NFS

RabbitMQ 常用 API

完美解决 RabbitMQ 可视化界面中 Overview 不显示图形的问题

ssh: connect to host master port 22: No route to host

[springboot配置Kafka] springboot配置多个kafka,包含账号密码

一文详解DCMM（数据管理能力成熟度评估模型）贯标评估全流程

数据仓库是什么？