大数据 - overfit.cn

Redis 缓冲区

主节点会把收到的写命令写入复制积压缓冲区 (repl_backlog_buffer)Redis 的每个客户端输入缓冲区大小的上限阈值固定 (1 GB)缓冲区 : 避免客户端和服务器端的请求发送和处理速度不匹配。主节点向从节点传输 RDB 时，会继续接收客户端的写请求。

overfit同步小助手 2023-06-15 00:04:17 0 收藏

hbase分布式安装

Zookeeper和Hadoop集群正常启动。

overfit同步小助手 2023-06-14 23:04:19 0 收藏

RabbitMQ延迟插件【安装windows/Linux(Docker)】

overfit同步小助手 2023-06-14 22:04:14 0 收藏

springboot整合dubbo时连接zookeeper——天坑

java.lang.IllegalStateException: java.lang.IllegalStateException: zookeeper not connectedjava.lang.IllegalStateException: failed to connect to zookeep

overfit同步小助手 2023-06-14 18:04:30 0 收藏

Hive数据清洗中常见的几个函数

在Hive中，数据清洗是一个重要的任务之一，通常涉及到对数据进行过滤、修改和转换等操作，以使其更易于使用和分析。常用的数据清洗技术包括：数据去重、空值填充、数据格式化、数据类型转换、数据分区等。

overfit同步小助手 2023-06-14 18:04:10 0 收藏

实验7 Spark初级编程实践

每个输入文件表示班级学生某个学科的成绩，每行内容由两个字段组成，第一个是学生名字，第二个是学生的成绩；下面是输入文件和输出文件的一个样例，供参考。对于两个输入文件 A 和 B，编写 Spark 独立应用程序（推荐使用 Scala），对两个文件进行。1、输入/usr/local/sbt/sbt pa

overfit同步小助手 2023-06-14 17:04:17 0 收藏

云计算与大数据实验三 HDFS的基本操作

确保当前输入法在英文状态下后，按下小写i键，按下后如下图标红处所示出现--INSERT--字符，表示已经进入文档编辑模式，可以编辑该文档了。确保当前输入法在英文状态下后，按下小写i键，按下后如下图标红处所示出现--INSERT--字符，表示已经进入文档编辑模式，可以编辑该文档了。确保当前输入法在英文

overfit同步小助手 2023-06-14 16:04:17 0 收藏

spark：商品热门品类TOP10统计（案例）

品类是指产品的分类，大型电商网站品类分多级，一般为三级分类，此次项目中品类只有一级。不同的公司对热门的定义不一样。此次按照每个品类的点击---->下单---->支付的量来统计热门品类。先按照点击数排名，数量决定排名；点击数相同，比较下单数；下单数相同，比较支付数。...

overfit同步小助手 2023-06-14 14:04:33 0 收藏

基于DataHub元数据血缘管理实施方案

元数据按用途的不同分为两类：技术元数据（ Technical Metadata)和业务元数据（ Business Metadata ）技术元数据是存储关于数据仓库系统技术细节的数据，用于开发和管理数据仓库使用的数据。业务元数据从业务角度描述了数据仓库中的数据，它提供了介于使用者和实际系统之间的语义层

overfit同步小助手 2023-06-14 13:04:25 0 收藏

Kafka重复消费以及消费线程安全关闭的解决方案

overfit同步小助手 2023-06-14 12:04:22 0 收藏

流计算开发平台StreamPark安装

StreamPark（原StreamX）是一个流处理应用程序开发管理框架。初衷是让流处理更简单，旨在轻松构建和管理流处理应用程序，提供使用 Apache Flink 和 Apache Spark 编写流处理应用程序的开发框架，未来将支持更多其他引擎。同时，StreamPark 提供了一个流处理应用管

overfit同步小助手 2023-06-14 11:04:29 0 收藏

大数据组件的区别总结（hive，hbase，spark，flink）

介绍了hive和spark的区别，spark和flink的区别和hive和hbase的区别。

overfit同步小助手 2023-06-14 09:04:20 0 收藏

RabbitMQ 保证消息不丢失的几种手段

我们通过分析消息从生产者发送消息到消费者消费消息的全过程，得出了消息可能丢失的几种场景，并给出了相应的解决方案，如果需要保证消息在整条链路中不丢失，那就需要生产端、mq自身与消费端共同去保障。生产端：对生产的消息进行状态标记，开启confirm机制，依据mq的响应来更新消息状态，使用定时任务重新投递

overfit同步小助手 2023-06-14 09:03:46 0 收藏

RabbitMQ顺序消费

出现这个问题的主要原因是，不同消息都发送到了一个queue 中，然后多个消费者消费同一个queue的消息。实际项目中，比如订单系统要同步订单表的数据到大数据部门的MySQL库中，通常做法是通过Canal这样的中间件去监听binlog，然后再把这些binlog 发送到MQ中，然后消费者从MQ中获取b

overfit同步小助手 2023-06-14 08:03:47 0 收藏

2023最新大数据毕业设计论文题目（117篇）

基于知识图谱的BILSTM-CRF和BIGRU自然语言处理模型和杀伤链匹配系统。基于ARIMA-CNN-LSTM的多变量黄河水位时间序列预测模型研究。POP-基于大数据的政府舆情地域化多元分析系统游客目的地印象分析。股吧情绪分析下的股价预测系统实现——基于投资者情绪分类的研究策略。Envir-Mon

overfit同步小助手 2023-06-14 07:04:31 0 收藏

Linux虚拟机的安装与创建【超详细】【手把手教学】

教你1小时学会安装与创建

overfit同步小助手 2023-06-14 07:04:08 0 收藏

什么是数据仓库？

数据仓库的基本功能与概念的介绍；数据库与数据仓库的对比介绍

overfit同步小助手 2023-06-14 05:05:20 0 收藏

用大数据“喂养”出来的AI模型ChatGPT 爆火是大数据、大算力、强算法的支撑，中国缺乏的什么？

从2018年到2022年，OpenAI先后迭代并推出了GPT-1、GPT-2、GPT-3和InstructGPT，此次发布的ChatGPT就是在GPT-3的基础上通过指令微调后得到的。ChatGPT的基础是世界上最强大的LLM（大语言模型）之一——GPT-3，同时引入了基于人类反馈的强化学习方法，提

overfit同步小助手 2023-06-14 04:04:20 0 收藏

VMWare建立于W10的共享文件夹

在虚拟机设置 -> 文件夹共享，选择总是启用，点击添加：直接点击下一步：选择原系统共享文件夹位置，并命名：选择启用此共享，并继续：虚拟机菜单栏 -> 虚拟机 -> 安装VMware Tools ，等一会虚拟机会自己打开VMware Tools文件夹。之后一直。......

overfit同步小助手 2023-06-14 02:04:20 0 收藏

Elasticsearch：如何在 Docker 上运行 Elasticsearch 8.x 进行本地开发

我们已经介绍了在 Docker 上运行 Elasticsearch 和 Kibana 的各种方法。对于本地开发，在大多数情况下我们可以禁用 xpack 安全性，只关注数据和查询。在禁用 xpack 安全性时使用 Docker 会更加直接。对于生产，我们通常会将数据托管在专门的提供商（例如 elast

overfit同步小助手 2023-06-14 01:04:29 0 收藏