大数据 - overfit.cn

hive分位函数percentile和percentile_approx误区和解决方案

percentile和percentile_approx对分位数的计算

overfit同步小助手 2023-11-16 05:03:38 0 收藏

【大数据】HDFS客户端命令行(hdfs dfs)详细使用说明

Hadoop dfs 客户端命令ls/count/du/mv等使用详解

overfit同步小助手 2023-11-16 04:03:59 0 收藏

SpringData、SparkStreaming和Flink集成Elasticsearch

1。

overfit同步小助手 2023-11-15 22:03:45 0 收藏

实战大数据项目

存储日志数据集（HDFS）数据仓库构建（Hive）数据分区表构建数据预处理（Spark计算引擎）-使用Zeppelin进行写SQL订单指标分析Sqoop数据导出到传统数据库（Mysql）Superset数据可视化项目架构架构方案：1、基于Hadoop的HDFS（数据存储）文件系统来存储数据2、为

overfit同步小助手 2023-11-15 21:03:39 0 收藏

8-1HBase的安装与简单操作

delete删除指定对象的值（可以为表，行，列对应的值，另外也可以指定时间戳的值）先disable表，然后再drop表，最后重新create表。表名’, ‘行键’, ‘列族名:列名’, ‘列值’表名’, ‘行键’, ‘列族名’, ‘列值’表名’, ‘行键’, ‘列族名：列名’表名’, ‘行键’, ‘

overfit同步小助手 2023-11-15 20:03:37 0 收藏

Spark 增量抽取 Mysql To Hive

【代码】Spark 增量抽取 Mysql To Hive。

overfit同步小助手 2023-11-15 16:03:16 0 收藏

java连接zookeeper

curator-framework是基础的依赖，一些特定的使用方式需要添加不同的依赖，有curator-recipes、curator-x-discovery、curator-x-async等。提供了连接重试、分布式锁、选举、队列等多种实际场景的用例。这里先简单搞个使用例子。zkclient对节点数

overfit同步小助手 2023-11-15 15:03:51 0 收藏

java操作kafka

一.本地连接kafka发送消息：生产者同步发送消息和异步发送消息。

overfit同步小助手 2023-11-15 13:03:52 0 收藏

18、Flink的SQL 支持的操作和语法

20、Flink SQL之SQL Client: 不用编写代码就可以尝试 Flink SQL，可以直接提交 SQL 任务到集群上与所有 SQL 引擎一样，Flink 查询操作是在表上进行。与传统数据库不同，Flink 不在本地管理静态数据；相反，它的查询在外部表上连续运行。Flink 数据处理流水线

overfit同步小助手 2023-11-15 13:03:47 0 收藏

使用 pyspark 进行 Clustering 的简单例子 -- KMeans

K-means算法适合于简单的聚类问题，但可能不适用于复杂的聚类问题。此外，在使用K-means算法之前，需要对数据进行预处理和缩放，以避免偏差。K-means是一种聚类算法，它将数据点分为不同的簇或组。原理简介：K-Means算法通过迭代寻找数据集中的k个簇，每个簇内的数据点尽可能相似（即，簇内距

overfit同步小助手 2023-11-15 13:03:28 0 收藏

kafka和rocketMq的区别

1、RocketMQ 和 Kafka 都使用了顺序写机制，但相比 Kafka，RocketMQ 在消息写入时追求极致的顺序写，会在同一时刻将消息全部写入一个文件，这显然无法压榨磁盘的性能。而 Kafka 是分区级别顺序写，在分区数量不多的情况下，从所有分区的视角来看是随机写，但这能重复发挥 CPU

overfit同步小助手 2023-11-15 12:03:29 0 收藏

[超详细]RabbitMQ安装延迟消息插件

下载插件版本需要注意,要跟你安装的RabbitMQ版本基本一样(我的RabbitMQ版本是3.10.1),插件我就用3.10.0,我试其他插件版本都不行,(可能是版本不兼容的原因吧),就这个3.10.0可以.然后再sbin目录下运行 rabbitmq-plugins enable rabbitmq_

overfit同步小助手 2023-11-15 11:03:31 0 收藏

hadoop namenode -format报错显示：命令未找到

这个bug很搞笑，我做分布式搭建时，slaver1和slaver2都可以hadoop name -format，就是master不可以，配置都是一样的，这个第一时间也是想到了环境配置问题。这里的/apps/hadoop是我的hadoop安装路径（根据实际情况改动）然后再执行hadoop nameno

overfit同步小助手 2023-11-15 10:03:15 0 收藏

rabbitMq虚拟主机概念

在RabbitMQ中，交换机（Exchange）用于接收生产者发送的消息，并根据特定的路由规则将消息分发到相应的队列中。而虚拟主机则是一种更高级的概念，它提供了一个逻辑上的隔离环境，使得不同的应用或不同的业务可以在同一个RabbitMQ服务器上独立操作，彼此互不干扰。通过使用不同的虚拟主机，可以将不

overfit同步小助手 2023-11-15 09:03:50 0 收藏

【SQL相关】Hive中空值与Null的判断及处理

如果a字段值为null，那么null转化为0这个值，如果a字段值不为null，则显示a本来的值。如果a字段值为null，那么null转化为0这个值，如果a字段值不为null，则转化为1这个值。null没有被分配任何值或对象，表示这个字段没有被赋值或者值是未知的；将a字段的空值替换为1（[\\s]+|

overfit同步小助手 2023-11-15 08:03:51 0 收藏

大数据毕设项目大数据旅游数据分析可视化系统 - python

🔥 这两年开始毕业设计和毕业答辩的要求和难度不断提升，传统的毕设题目缺少创新和亮点，往往达不到毕业答辩的要求，这两年不断有学弟学妹告诉学长自己做的项目系统达不到老师的要求。为了大家能够顺利以及最少的精力通过毕设，学长分享优质毕业设计项目，今天要分享的是🚩 **基于python的旅游数据分析可视

overfit同步小助手 2023-11-15 08:03:38 0 收藏

Hadoop PseudoDistributed Mode 伪分布式

上传本地测试文件 wcdata.txt 到 HDFS 上 /wordcount/input。浏览器访问:http://hadoop102:50090/浏览器访问:http://hadoop102:19888/在 HDFS 上创建目录 /wordcount/input。浏览器访问: http://ha

overfit同步小助手 2023-11-15 06:03:31 0 收藏

分布式 - 消息队列Kafka：Kafka生产者架构和配置参数

如果生产者发送消息的速度超过发送到服务器的速度，则会导致生产者空间不足，这个时候KafkaProducer的send（）方法调用要么被阻塞，要么抛出异常，这个取决于参数max.block.ms的配置，此参数的默认值为60000，即60秒。在默认情况下，生产者发送的消息是未经压缩的。如果应用程序调用s

overfit同步小助手 2023-11-15 05:03:18 0 收藏

hive 动态分区-动态分区数量太多也会导致效率下降&只设置非严格模式也能执行动态分区

百亿数据动态分区处理

overfit同步小助手 2023-11-15 05:03:10 0 收藏

Zookeeper-使用篇

zookeeper+dubbo远程调用

overfit同步小助手 2023-11-15 02:03:36 0 收藏