大数据 - overfit.cn

Hadoop之——WordCount案例与执行本地jar包

overfit同步小助手 2023-06-09 12:04:33 0 收藏

机器学习——数据仓库与数据挖掘复习（选择题、判断题）

期末复习

overfit同步小助手 2023-06-09 12:04:28 0 收藏

【Flink】Flink 记录一个 checkpoint 检查点越来越大的问题

Flink SQL checkpoint越来越大咋么办，从2个G，现在4个G了，增量同步的，窗口是1小时，watermark是6小时，按道理来说，数据量不应该越来越大啊？在窗口内执行了count(distinct )这些操作。设置了状态的ttl。后端状态存储用的rocksdb。状态如下设置了增量

overfit同步小助手 2023-06-09 12:04:21 0 收藏

rabbitmq无法连接问题

最近一个项目使用了rabbitmq作为消息队列，进行异步解耦操作，因涉及到数据的一致性问题，设置了手动应答和持久化功能。开发过程中一切顺利，然而天将降大任于斯人也必先苦其心智老其筋骨，饿其体肤，空乏其身，好吧偏题了。在最终的测试运行中发现一些偶尔会有消息无法发送的情况，有时候1、2周出现，有时候1、

overfit同步小助手 2023-06-09 11:03:46 0 收藏

云服务部署kafka 报错：“docker run“ requires at least 1 argument.

这里需要注意一下有一个小坑，如果你之前一直是部署在自己电脑的虚拟机上的最后-p的命令使用的是--net=host wurstmeister/kafka:2.12-2.3.1，创建容器指令：docker run -d --name zookeeper -p 2181:2181 zookeeper:3.

overfit同步小助手 2023-06-09 10:04:36 0 收藏

【大数据基础】淘宝双11数据分析与预测

age_range | 买家年龄分段：1表示年龄小于18,2表示年龄在[18,24]，3表示年龄在[25,29]，4表示年龄在[30,34]，5表示年龄在[35,39]，6表示年龄在[40,49]，7和8表示年龄大于等于50,0和NULL则表示未知。age_range | 买家年龄分段：1表示年龄<

overfit同步小助手 2023-06-09 10:04:25 0 收藏

Hive数据分析案例——汽车销售数据分析

HiveQL汽车销售数据分析，一些简单问题求解

overfit同步小助手 2023-06-09 09:03:43 0 收藏

【ElasticSearch 】IK 分词器安装

Elasticsearch 要使用 ik，就要先构建 ik 的 jar包，这里要用到 maven 包管理工具，而 maven 需要java 环境，而 Elasticsearch 内置了jdk，所以可以将JAVA_HOME设置为Elasticsearch 内置的jdk上传 maven 安装包打开文件

overfit同步小助手 2023-06-09 08:03:47 0 收藏

数据湖与数据仓库区别

overfit同步小助手 2023-06-09 08:03:38 0 收藏

hive数据仓库--Hive介绍

hive

overfit同步小助手 2023-06-09 07:03:42 0 收藏

SpringBoot 2.7教程：SpringBoot 整合 RabbitMQ 项目搭建-2022年最新图文版本

目录一、新建项目springboot-rabbitmq，项目结构如下二、确认pom文件依赖三、配置application.yml四、创建发送消息Controller五、创建消费消息类六、创建交换机、队列、绑定交换机和队列七、测试

overfit同步小助手 2023-06-09 07:03:39 0 收藏

RabbitMQ使用详解

RabbitMQ一. 简介 RabbitMQ是用Erlang实现的一个高并发高可靠AMQP消息队列服务器。支持消息的持久化、事务、拥塞控制、负载均衡等特性，使得RabbitMQ拥有更加广泛的应用场景。RabbitMQ跟Erlang和AMQP有关。下面简单介绍一下Erlang和AMQP。 Erl

overfit同步小助手 2023-06-09 04:04:01 0 收藏

Kafka - 主题Topic与消费者消息Offset日志记录机制

kafka topic分区存储消息以及消息信息存储的形式与日志记录

overfit同步小助手 2023-06-09 04:03:37 0 收藏

IDEA配置Hadoop环境-非maven配置版（图文详细）

overfit同步小助手 2023-06-09 01:03:40 0 收藏

【算力网络】算力知识

尽管算力这个词在近年来很“火”，但其背后的含义，却很少有人真正了解

overfit同步小助手 2023-06-09 00:03:50 0 收藏

什么是大数据？大数据有哪些应用场景？

大数据技术的发展已经改变了我们对数据的认知和处理方式，大数据是一种新型的数据处理技术，它涵盖了多个领域，包括计算机科学、网络通信、算法理论、应用统计学等。简要来说，大数据可以定义为处理规模庞大复杂度高数据时所需的技术和方法。

overfit同步小助手 2023-06-09 00:03:43 0 收藏

实验7 Spark初级编程实践

1. Spark读取文件系统的数据2.编写独立应用程序实现数据去重对于两个输入文件A和B，编写Spark独立应用程序（推荐使用Scala语言），对两个文件进行合并，并剔除其中重复的内容，得到一个新文件C。下面是输入文件和输出文件的一个样例，供参考。3.编写独立应用程序实现求平均值问题每个输入文件表示

overfit同步小助手 2023-06-08 23:04:03 0 收藏

elasticsearch-8.5.2快速入门和kibana-8.5.2的使用

官方安装，和ES可视化工具。安装下载过程略。

overfit同步小助手 2023-06-08 22:03:40 0 收藏

大数据：HBase安装、配置及使用

大数据大数据，HBase，python大数据：HBase安装、配置及使用一、下载二、安装和配置1. 搭建hadoop环境2. 安装3. 验证4. 安装模式配置1) 伪分布式模式配置（1）编辑 `/usr/local/hbase/conf/hbase-env.sh` 文件（2）编辑 `/usr/loc

overfit同步小助手 2023-06-08 21:03:50 0 收藏

Hudi-集成Spark之spark-sql方式

hudi 支持使用 bulk_insert 作为写操作的类型，只需要设置两个配置：hoodie.sql.bulk.insert.enable 和 hoodie.sql.insert.mode。（5）通过 CTAS (Create Table As Select)建表为了提高向 hudi 表加载数据的

overfit同步小助手 2023-06-08 18:03:58 0 收藏