大数据 - overfit.cn

毕业设计：基于大数据的学习成绩可视化系统 Python

毕业设计：基于大数据的学习成绩可视化系统过收集和分析学生的学习成绩数据，系统将学生的学习情况可视化展示，包括学科得分、学习曲线、成绩趋势等。同时，系统还提供了学科间的关联分析和学生群体的比较功能，帮助教育工作者和决策者深入了解学生的学习表现，为教育决策提供科学依据。对于计算机专业、软件工程专业、人工

overfit同步小助手 2024-06-05 16:03:40 0 收藏

熟悉HBase常用操作

overfit同步小助手 2024-06-05 15:03:42 0 收藏

什么是Flink CDC，以及如何使用_flinkcdc(1)，2024年最新完美收官

面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频，并且后续会持续更新**

overfit同步小助手 2024-06-05 14:03:24 0 收藏

Hive-Sql复杂面试题

3、rollup是卷起的意思，俗称层级聚合，相对于grouping sets能指定多少种聚合，而with rollup则表示从左往右的逐级递减聚合，如:group by a,b,c with rollup 等价于 group by a, b, c grouping sets( (a, b, c),

overfit同步小助手 2024-06-05 13:03:51 0 收藏

【大数据】利用 Apache Ranger 管理 Amazon EMR 中的数据权限

系统安全通常包括两个核心主题：身份验证和授权。一个解决 “用户是谁” 的问题，另一个解决 “用户允许执行什么操作” 的问题。在大数据领域，Apache Ranger 是最受欢迎的授权选择之一，它支持所有主流大数据组件，包括 HDFS、 Hive、HBase、 Trino 等组件。

overfit同步小助手 2024-06-05 13:03:38 0 收藏

rabbitmq调优--来自gpt

RabbitMQ的调优可以涉及多个方面，包括硬件配置、RabbitMQ配置参数、队列设计以及消息发布和消费策略等。

overfit同步小助手 2024-06-05 13:03:32 0 收藏

高级DBA带你处理Mysql数据库10亿大数据条件下迁移实战

FEDERATED存储引擎能让你访问远程的MySQL数据库而不使用replication或cluster技术(类似于Oracle的dblink),使用FEDERATED存储引擎的表,本地只存储表的结构信息,数据都存放在远程数据库上,查询时通过建表时指定的连接符去获取远程库的数据返回到本地。

overfit同步小助手 2024-06-05 12:03:51 0 收藏

Spark--Spark SQL结构化数据文件处理知识总结(第五章)

Spark SQL是Spark用来处理结构化数据的一个模块，它提供了一个编程抽象结构叫做DataFrame的数据模型（即带有Schema信息的RDD），Spark SQL作为分布式SQL查询引擎，让用户可以通过SQL、DataFrames API和Datasets API三种方式实现对结构化数据的处

overfit同步小助手 2024-06-05 12:03:44 0 收藏

数据流处理框架Flink与Kafka

1.背景介绍在大数据时代，数据流处理技术已经成为了一种重要的技术手段，用于处理和分析大量实时数据。Apache Flink和Apache Kafka是两个非常重要的开源项目，它们在数据流处理领域具有广泛的应用。本文将深入探讨Flink和Kafka的关系以及它们在数据流处理中的应用，并提供一些最佳实践

overfit同步小助手 2024-06-05 11:03:25 0 收藏

Flink将数据流导入Doris

DorisSink是通过StreamLoad向Doris写入数据，DataStream写入时，支持不同的序列化方法。setLabelPrefix：Stream load导入使用的label前缀。2pc场景下要求全局唯一，用来保证Flink的EOS语义。特殊字符作为分隔符：'sink.propert

overfit同步小助手 2024-06-05 10:03:46 0 收藏

hive中struct相关函数总结

2、named_struct(name1, value1, name2, value2, …)：创建一个 Named Struct 对象，由多个名称和对应的值组成。1、struct(field1, field2, …)：创建一个 Struct 对象，由多个字段组成。如何将上述struct类型的数据转

overfit同步小助手 2024-06-05 10:03:14 0 收藏

消息队列 Kafka 入门篇(二) -- 安装启动与可视化工具

在本教程中，我们将使用kafka_2.13-2.8.1版本作为示例。下载完成后，解压到您的工作目录的合适位置，例如F:\kafka_2.13-2.8.1。

overfit同步小助手 2024-06-05 09:03:55 0 收藏

大数据面试题 —— Hive

（1）承UDF或者UDAF或者UDTF，实现特定的方法；（2）打成jar包，上传到服务器（3）执行命令add jar路径，目的是将 jar 包添加到 hive 中create temporary function 函数名 as "自定义函数全类名"（5）在select中使用 UDF 函数。

overfit同步小助手 2024-06-05 09:03:50 0 收藏

本机搭建RabbitMQ

Exchange（交换机）作用：Exchange是消息的路由器。生产者将消息发送给exchange，而不是直接发送给队列。exchange根据预定义的规则（称为binding）来决定哪些消息应该路由到哪个队列类型：Exchange有多种类型，如direct（直接交换机）、fanout（广播交换机）、

overfit同步小助手 2024-06-05 08:04:01 0 收藏

hive 之 insert into 和 insert overwrite 的区别和用法（实战）

hive 之 insert into 和 insert overwrite 的区别和用法

overfit同步小助手 2024-06-05 08:03:56 0 收藏

数据仓库面试题集锦（附答案和数仓知识体系），面试必过

别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。

overfit同步小助手 2024-06-05 08:03:51 0 收藏

Hive连接方式（本文梳理与datagrip连接）

1.确保HIve已经正确安装完毕，如已正确成功安装Hive，随时随地输入Hive启动即可首先要确保集群成功启动，否则hive会failed；2.启动成功之后，就可以做Hive的相关操作了，出现以下操作 -------成功！

overfit同步小助手 2024-06-05 08:03:42 0 收藏

Linux虚拟机环境搭建spark

Linux环境搭建Spark分为两个版本，分别是Scala版本和Python版本。本环境以 Python 环境为例。

overfit同步小助手 2024-06-05 08:03:35 0 收藏

windows 安装 hadoop3.3.6 和 hbase 2.5.7 以及解决遇到的一些坑

今天说说安装这两玩意并且尽可能的把遇到的坑填了

overfit同步小助手 2024-06-05 07:03:52 0 收藏

Hive运行错误

查询hadoop日子：/bin/bash: /bin/java: No such file or directory。删除一个文件一个目录: derby.log和metastore_db。注意：用hadoop的完整地址，不能使用。

overfit同步小助手 2024-06-05 06:03:53 0 收藏