大数据 - overfit.cn

ubuntu-server部署hive-part4-部署hive

参照操作系统版本：ubuntu-server-22.04.3虚拟机：virtualbox7.0。

overfit同步小助手 2024-04-09 03:03:51 0 收藏

Flink 内存梳理与遇到的问题修复

flink

overfit同步小助手 2024-04-09 02:03:50 0 收藏

工业大数据的应用在物流管理中：关键技术与案例

1.背景介绍物流管理是现代社会中不可或缺的一部分，它涉及到的领域非常广泛，包括物流计划、物流执行、物流监控和物流评估等。随着全球化的深入，物流管理的复杂性也不断增加，传统的物流管理方法已经不能满足现实中的需求。因此，大数据技术在物流管理中的应用已经成为一个热门的研究话题。大数据技术可以帮助物流管理在

overfit同步小助手 2024-04-09 02:03:39 0 收藏

Spark-Scala语言实战（11）

今天开始的文章，我会带给大家如何在spark的中使用我们的键值对方法，今天学习键值对方法中的join,rightOuterJoin,leftOuterJoin三种方法。希望我的文章能帮助到大家，也欢迎大家来我的文章下交流讨论，共同进步。

overfit同步小助手 2024-04-09 00:03:50 0 收藏

大数据增强学习在金融行业中的应用：如何预测市场趋势

1.背景介绍大数据增强学习(Data-driven Reinforcement Learning, DRL)是一种人工智能技术，它结合了大数据处理和强化学习等多种技术，以解决复杂的决策问题。在金融行业中，DRL 的应用非常广泛，尤其是在市场预测、风险管理、投资策略等方面。本文将从以下几个方面进行阐述

overfit同步小助手 2024-04-08 23:03:41 0 收藏

最全大数据专业python毕业设计选题合集

大家好！大四的同学们，毕业设计的时间即将到来，你们准备好了吗？为了帮助大家更好地开始毕设，我作为学长给大家整理了最新的计算机大数据专业的毕设选题。如果在开题选题的过程中有任何疑问，都可以随时向我提问，我会根据你们的情况提供帮助。对于大数据专业的毕设选题，重要的是选择与该领域紧密相关且具有实际意义的课

overfit同步小助手 2024-04-08 21:03:48 0 收藏

Spark 安装（集群模式）

实际生产环境一般不会用本地模式搭建Spark。生产环境一般都是集群模式。下面就给出了安装集群模式的步骤。

overfit同步小助手 2024-04-08 21:03:43 0 收藏

ZooKeeper的安装与操作

是一个分布式的、开放源码的分布式应用程序协调服务，它是的Chubby服务的开源实现，也是和等大数据生态系统中的重要组件。ZooKeeper的目标是为分布式应用提供一致性服务，包括配置维护、域名服务、分布式同步和组服务等。它封装了复杂且易出错的关键服务，通过简单的接口和高效、稳定的系统提供给用户。Zo

overfit同步小助手 2024-04-08 20:03:26 0 收藏

hadoop多次格式化解决办法

配置文件core-site.xml 和hdfs-site.xml中指定目录下的文件（在如例地找 /root/wwr/hadoop-3.1.4/etc/hadoop）hadoop首次启动需要格式化，这时若是因为一些原由导致格式化不止一次，就会导致主点之间互相不识别，就会导致一些节点不会启动（如图

overfit同步小助手 2024-04-08 19:03:46 0 收藏

RabbitMQ基础知识

BindingKey 并不是在所有的情况下都生效，它依赖于交换器类型，比如 fanout 类型的交换器就会无视，而是将消息路由到所有绑定到该交换器的队列中。RabbitMQ 是使用 Erlang 编写的一个开源的消息队列，本身支持很多的协议：AMQP，XMPP, SMTP, STOMP，也正是如此，

overfit同步小助手 2024-04-08 17:03:48 0 收藏

Spark-Scala语言实战（13）

今天开始的文章，我会带给大家如何在spark的中使用我们的键值对方法，今天学习键值对方法中的fullOuterJoin，zip，combineByKeyy三种方法。希望我的文章能帮助到大家，也欢迎大家来我的文章下交流讨论，共同进步。

overfit同步小助手 2024-04-08 17:03:23 0 收藏

【大数据进阶第三阶段之DolphinScheduler学习笔记】深度解析DolphinScheduler(海豚调度)

Apache DolphinScheduler 是一个分布式易扩展的可视化DAG工作流任务调度开源系统。适用于企业级场景，提供了一个可视化操作任务、工作流和全生命周期数据处理过程的解决方案。Apache DolphinScheduler 旨在解决复杂的大数据任务依赖关系，并为应用程序提供数据和各种

overfit同步小助手 2024-04-08 16:03:41 0 收藏

Rabbitmq如何保证消息不乱序

RabbitMQ本身不保证消息的顺序性。它是一个分布式的消息代理系统，具有高可用性和负载均衡的特性，这意味着消息可能通过不同的通道被路由到不同的队列或消费者，因此无法保证消息的严格顺序传递。

overfit同步小助手 2024-04-08 15:03:52 0 收藏

数据仓库的数据源与数据集成：实践与挑战

1.背景介绍数据仓库是企业和组织中的一个关键技术，它能够帮助企业和组织更有效地进行数据分析和决策。数据仓库的核心是数据源和数据集成。数据源是数据仓库中的基本数据来源，数据集成是将不同数据源集成到数据仓库中的过程。在本文中，我们将讨论数据仓库的数据源与数据集成的实践与挑战。我们将从以下几个方面进行讨论

overfit同步小助手 2024-04-08 14:03:52 0 收藏

部署Zabbix Agents添加使能监测服务器_Linux平台_Yum源/Archive多模式

Zabbix 主要有以下几个组件组成：Zabbix Server：Zabbix 服务端，Zabbix的核心组件，它负责接收监控数据并触发告警，还负责将监控数据持久化到数据库中。Zabbix Agent：Zabbix客户端，部署在被监控设备上，负责采集监控数据，采集后的数据发送给 Zabbix Ser

overfit同步小助手 2024-04-08 14:03:44 0 收藏

RabbitMQ面试题（四十四道）

镜像集群模式：这种模式，才是所谓的RabbitMQ的高可用模式，跟普通集群模式不一样的是，你创建的queue，无论元数据(元数据指RabbitMQ的配置数据)还是queue里的消息都会存在于多个实例上，然后每次你写消息到queue的时候，都会自动把消息到多个实例的queue里进行消息同步。（1）创建

overfit同步小助手 2024-04-08 14:03:39 0 收藏

使用Intellij idea编写Spark应用程序(Scala+SBT)

对Scala代码进行打包编译时，可以采用Maven，也可以采用SBT，相对而言，业界更多使用SBT。

overfit同步小助手 2024-04-08 14:03:25 0 收藏

ELK+kafka日志系统

input配置：指定kafka集群个节点地址，指定topics，该topics就是在k8s集群中daemonset yml文件中引用的topics变量，指定编码为jsonoutput配置：通过type过来日志，将过滤的日志发送给elasticsearch，hosts指定elasticsearch集群

overfit同步小助手 2024-04-08 12:03:32 0 收藏

学习大数据，需要的SQL基础（1）

数据库操作语言：简称DML(Data Manipulation Language)，用来对数据库中的记录进行操作，关键字：insert，delete，update等。---- 双引号不明确。-------- 如果省略列名，那么在存值时需要将所有列的值都写上。先定位到要查询哪个表，然后根据什么条件去查

overfit同步小助手 2024-04-08 11:03:51 0 收藏

实现HBase表和RDB表的转化(附Java源码资源)

实现HBase表和RDB表的转化

overfit同步小助手 2024-04-08 10:03:24 0 收藏