大数据 - overfit.cn

实验三 Spark SQL基础编程

实验三 Spark SQL基础编程1. 掌握 Spark SQL 的基本编程方法；2. 熟悉 RDD 到 DataFrame 的转化方法；3. 熟悉利用 Spark SQL 管理来自不同数据源的数据。

overfit同步小助手 2023-06-17 15:04:22 0 收藏

大数据：Trino简介及ETL场景的解决方案

Presto 在 Facebook 的诞生最开始是为了填补当时 Facebook 内部实时查询和 ETL 处理之间的空白。Presto 的核心目标就是提供交互式查询，也就是我们常说的 Ad-Hoc Query，很多公司都使用它作为 OLAP 计算引擎。但是随着近年来业务场景越来越复杂，除了交互式查询

overfit同步小助手 2023-06-17 14:03:58 0 收藏

Centos Linux 安装单机 Hadoop（HDFS）

Centos Linux 安装单机 Hadoop（HDFS）、Centos、Linux、Hadoop、HDFS、Yarn、大数据、Apache、MapReduce

overfit同步小助手 2023-06-17 12:04:01 0 收藏

hive使用时的用户权限问题

Execution Error, return code 1 from;ljr is not allowed to add roles;Permission denied: Principal [name=ljr, type=USER] does not have following privile

overfit同步小助手 2023-06-17 11:04:23 0 收藏

MQ的概念和RabbitMQ知识点（无代码）

MQ全称是MessageQueue(消息队列），是保存消息在传输过程中的一种容器，既是存储消息的一种中间件。多是应用在分布式系统中进行通信的第三方中间件，如下图所示，发送方成为生产者，接收方称为消费者。............

overfit同步小助手 2023-06-17 11:03:53 0 收藏

根据下面给出的表格，用Hbase Shell模式设计学生表格。

Hbase数据库Shell练习首先检查目前启动了什么：这里什么也没有启动启动hadoop：1、进入hadoop安装目录2、启动代码./sbin/start-dfs.sh3、重新查询启动了什么，发现启动了DataNode和NameNode启动hbase：1、进入hbase安装目录2、启动hbase：

overfit同步小助手 2023-06-17 11:03:44 0 收藏

【RabbitMQ教程】第五章 —— RabbitMQ - 死信队列

🐬初学一门技术时，总有些许的疑惑，别怕，它们是我们学习路上的点点繁星，帮助我们不断成长。🐟文章粗浅，希望对大家有帮助！💧下一篇 -->....

overfit同步小助手 2023-06-17 09:04:42 0 收藏

手把手教你在linux上安装kafka

overfit同步小助手 2023-06-17 08:04:06 0 收藏

PVE 安装 windows10

PVE 安装 win10 跟实体机安装并没有太大的操作差异，只是需要在虚拟环境下加载特定的驱动安装的时候没有磁盘，需要加载 amd64 的驱动安装完成后没有网络，需要手动更新网络驱动大家也可以自己选择启动 windows 的版本，如果 PVE 的配置比较低的话可以选择 win7 或者 32 版本的操

overfit同步小助手 2023-06-17 07:04:19 0 收藏

尚硅谷大数据数仓项目superset db upgrade三个报错解答

ImportError: cannot import name ‘soft_unicode’ from 'markupsafe’和ImportError: cannot import name ‘TypedDict’ from ‘typing’ (/opt/module/miniconda3/env

overfit同步小助手 2023-06-17 06:03:51 0 收藏

Spring Cloud中的服务路由与负载均衡

服务调用端需要通过服务注册中心获取服务实例列表，并选择其中一个可达的实例进行调用。在使用Ribbon时服务消费端会从服务注册中心获取可用的服务实例列表，并通过负载均衡算法选择一个实例请求服务提供方。Zuul可以将流量转发到后端的各个服务实例上，实现对微服务的动态路由和负载均衡。本文将讨论Spring

overfit同步小助手 2023-06-17 05:04:04 0 收藏

让数据变得更直观：10款常用的可视化大屏软件

这是一个信息爆炸的时代，大数据也已经逐渐走进人们的视野里，无论是工作还是生活都离不开数据的支持，而数据可视化软件正迎合了市场以及大众的需求，它是最有效的传递信息的方式之一，用户可以更快的做出数据分析并做出决策。那么当今市场上有哪些靠谱的数据可视化软件？这篇文章将给大家一一介绍，希望能对大家有所帮助。

overfit同步小助手 2023-06-17 04:04:05 0 收藏

直播弹幕系统（五）- 整合Stomp替换原生WebSocket方案探究

本篇文章是基于SpringBoot - WebSocket的使用和聊天室练习来讲解的。在设计弹幕系统（目前还是从设计聊天室开始入手，弹幕的React实现后面会开始写）这块，我还是用最原生的WebSocket来进行的。对于服务端而言。无非就是添加注解修饰，通过@OnOpen进行监听等操作。但是最最最重

overfit同步小助手 2023-06-17 04:03:51 0 收藏

【数据可视化——词云图绘制】四步搞定从图片提取颜色的词云图绘制基于Python

【数据可视化——词云图绘制】基于python 利用图片遮罩提取颜色来绘制词云图绘制

overfit同步小助手 2023-06-17 03:04:07 0 收藏

kafka常用命令大全

kafka命令大全

overfit同步小助手 2023-06-16 23:04:08 0 收藏

数据库的基础学习1：select语句的查询

数据库的三个阶段：人工管理阶段、文件系统阶段、数据库系统阶段数据库管理系统：DBMS常见的关系型数据库：Oracle、DB2、mysql常见的非关系型数据库：MongoDB、rediessql的四部分:DQL（select查询语句）DCL（对数据进行变更）......

overfit同步小助手 2023-06-16 21:04:28 0 收藏

【大数据基础】基于 TMDB 数据集的电影数据分析

从上面的数据字典描述可以看出，电影的体裁字段是一个 json 格式的数据，因此，为了统计不同体裁的电影的数量，需要首先解析 json 数据，从中取出每个电影对应的体裁数组，然后使用词频统计的方法统计不同体裁出现的频率，即可得到电影的体裁分布。首先，需要对预算字段进行过滤，去除预算为 0 的项目，然后

overfit同步小助手 2023-06-16 21:04:24 0 收藏

MPP数据库

组织通常使用分析型MPP数据库作为数据仓库或集中式存储库，其中包含组织内部生成的所有数据，例如交易销售数据，Web跟踪数据，营销数据，客户服务数据，库存/后勤数据，人力资源/招聘数据以及系统日志数据。在数据库集群中，首先每个节点都有独立的磁盘存储系统和内存系统，其次业务数据根据数据库模型和应用特点划

overfit同步小助手 2023-06-16 21:04:18 0 收藏

如何保证RabbitMQ消息的顺序性

假设你有个系统，消费一条消息就往数据库里插入一条数据，要是你一个消息重复两次，你不就插入了两条，这数据不就错了？有很好的管理控制台，就是在后台新增一个策略，这个策略是镜像集群模式的策略，指定的时候是可以要求数据同步到所有节点的，也可以要求同步到指定数量的节。是消费到第二次的时候，自己判断一下是否已经

overfit同步小助手 2023-06-16 15:03:50 0 收藏

【RabbitMQ教程】第六章 —— RabbitMQ - 延迟队列

延时队列,队列内部是有序的，最重要的特性就体现在它的延时属性上，延时队列中的元素是希望在指定时间到了以后或之前取出和处理，简单来说，延时队列就是用来存.....

overfit同步小助手 2023-06-16 14:04:10 0 收藏