大数据 - overfit.cn

图解Spark Graphx基于connectedComponents函数实现连通图底层原理

overfit同步小助手 2023-12-05 10:03:35 0 收藏

实验五熟悉 Hive 的基本操作

（8）查询 stocks 表中收盘价(price_close)比开盘价(price_open)高得最多的那条记录的交易所 (exchange)、股票代码(symbol)、日期(ymd)、收盘价、开盘价及二者差价。（9）从 stocks 表中查询苹果公司（symbol=AAPL）年平均调整后收盘价(p

overfit同步小助手 2023-12-05 09:03:44 0 收藏

centos 搭建 zookeeper 高可用集群

在/etc/systemd/system/文件夹下创建一个启动脚本zookeeper-3.service。以下操作在 spark01 主机上完成。创建本地秘钥并将公共秘钥写入认证文件。解压 zookeeper 修改名称。在所有主机节点使新的环境变量生效。在所有主机节点创建软件目录。在各服务器上使环

overfit同步小助手 2023-12-05 09:03:38 0 收藏

1.Zookeeper特性与节点数据类型详解

和持久节点的区别是 ZK 服务端启动后，会有一个单独的线程去扫描，所有的容器节点，当发现容器节点的子节点数量为 0 时，会自动删除该节点。PERSISTENT_RECURSIVE，持久化递归订阅(默认)，在PERSISTENT的基础上，增加了子节点修改的事件触发，以及子节点的子节点的数据变化都会触发

overfit同步小助手 2023-12-05 07:03:26 0 收藏

spring-boot对rabbitMQ的操作

1、简单的来理解，就是在上面简单模式下增加几个消费者，如同搬砖一样的，一个搬运工搬不过来，多叫几个人来干活的性质，避免消息堆积。2、生产者代码,运行下面的代码,查看可视化界面,并不存在消息,原因是因为需要手动创建。5、查看可视化界面，进入死信队列的是时间最早的(也就是最先发送的)1、使用配置文件的方

overfit同步小助手 2023-12-05 07:03:18 0 收藏

Hadoop RPC简介

数新网络-让每个人享受数据的价值RPC（Remote Procedure Call）远程过程调用协议，一种通过网络从远程计算机上请求服务，而不需要了解底层网络技术的协议。RPC它假定某些协议的存在，例如TPC/UDP等，为通信程序之间携带信息数据。在OSI网络七层模型中，RPC跨越了传输层和应用层，

overfit同步小助手 2023-12-05 03:03:12 0 收藏

大数据技术原理与应用概念、存储、处理、分析和应用（林子雨）——第五章 NoSQL数据库

overfit同步小助手 2023-12-05 02:03:38 0 收藏

大数据智能决策系统架构：决策系统与自动驾驶

作者：禅与计算机程序设计艺术 1.简介自动驾驶、智能出行以及城市规划等领域，已经引起越来越多人的关注。如何快速、精准地解决这些复杂的问题，让智能出行产品的用户感到舒适、安全以及顺畅，是目前研究的热点。但是，如何将一个自动驾驶、智能出行、城市规划问题，转化成自动化

overfit同步小助手 2023-12-04 23:03:50 0 收藏

大数据组件-Flume集群环境搭建

Flume是一个分布式、可靠和高可用性的数据采集工具，用于将大量数据从各种源采集到Hadoop生态系统中进行处理。在大型互联网企业的数据处理任务中，Flume被广泛应用。Flume集群环境介绍：Agent：Flume的基本组成单元是Agent，用于在不同的节点之间传输数据。Agent可以是单节点或分

overfit同步小助手 2023-12-04 23:03:39 0 收藏

hive的安装配置笔记

overfit同步小助手 2023-12-04 21:03:33 0 收藏

ubuntu22.04安装MySQL、Hive及Hive连接MySQL操作

overfit同步小助手 2023-12-04 21:03:27 0 收藏

Hive insert插入数据与with子查询

当在hive中同时使用insert into(overwrite) table xx 与with子查询时候，需要将insert放在with as子查询后面（区分：与StarRocks不同，insert放在with as子查询前面）insert into 与 insert overwrite 都可以向

overfit同步小助手 2023-12-04 20:03:43 0 收藏

rabbitmq异常处理问题集

rabbitmq权限问题

overfit同步小助手 2023-12-04 19:03:28 0 收藏

数据库安全-Redis未授权&Hadoop&Mysql&未授权访问&RCE 漏洞复现

未授权访问漏洞可以理解为需要安全配置或权限认证的地址、授权页面存在缺陷导致其他用户可以直接访问从而引发重要权限可被操作、数据库或网站目录等敏感信息泄露，包括端口的未授权常见页面的未授权 /admin.php /menu.php常见的未授权访问漏洞及默认端口：默认端口统计：8095, 8161,

overfit同步小助手 2023-12-04 18:03:37 0 收藏

Flink Hive Catalog操作案例

在此对Flink读写Hive表操作进行逐步记录，需要指出的是，其中操作Hive分区表和非分区表的DDL有所不同，以下分别记录。

overfit同步小助手 2023-12-04 17:03:44 0 收藏

IDEA中运行Dinky0.7.5之KAFKA数据源调试问题解决过程

IDEA中运行Dinky0.7.5之KAFKA数据源调试问题解决过程java.lang.ClassCastException: cannot assign instance of org.apache.kafka.clients.consumer.OffsetResetStrategytoorg.a

overfit同步小助手 2023-12-04 17:03:37 0 收藏

【数据集资源】大数据资源-数据集下载方法-汇总

数据集中的评价对象按照粒度不同划分为两个层次，层次一为粗粒度的评价对象，例如评论文本中涉及的服务、位置等要素；深证创业板日线数据，截止 2017.05.05，原始价、前复权价、后复权价，636支股票http://dataju.cn/Dataju/web/datasetInstanceDetail/3

overfit同步小助手 2023-12-04 16:03:50 0 收藏

Hadoop 配置 Kerberos 认证

kinit: Invalid Uid in persistent keyring name while getting default ccacheCannot contact any KDC for realm KrbException: Message stream modified (41)k

overfit同步小助手 2023-12-04 15:03:41 0 收藏

Rabbitmq 的管理配置

每一个RabbitMQ 服务器都能创建虚拟的消息服务器，我们称之为虚拟主机(virtual host) ,简称为vhost 。每一个vhost 本质上是一个独立的小型RabbitMQ 服务器，拥有自己独立的队列、交换器及绑定关系等，井且它拥有自己独立的权限。vhost 就像是虚拟机与物理服务器一样，

overfit同步小助手 2023-12-04 14:03:51 0 收藏

Flink 的安装与基础编程

Apache Flink是一个分布式处理引擎，用于对无界和有界数据流进行有状态计算。Flink以数据并行和流水线方式执行任意流数据程序，它的流水线运行时系统可以执行批处理和流处理程序。此外，Flink 在运行时本身也支持迭代算法的执行。本文简要介绍了（单机与集群模式）Flink的安装以及基本编程方法

overfit同步小助手 2023-12-04 14:03:43 0 收藏