大数据 - overfit.cn

大数据大作业：（scrapy框架）使用uid爬取哔哩哔哩up主主页视频信息并进行数据可视化分析

整体来说本项目使用了scrapy框架爬取了b站up主的视频信息，并使用Json文件和MySQL数据库对数据进行存储，再使用pyechart对数据可视化处理。

overfit同步小助手 2024-07-02 17:03:31 0 收藏

【SparkStreaming】面试题

Spark Streaming 是 Apache Spark 提供的一个扩展模块，用于处理实时数据流。它使得可以使用 Spark 强大的批处理能力来处理连续的实时数据流。Spark Streaming 提供了高级别的抽象，如 DStream（Discretized Stream），它代表了连续的数据

overfit同步小助手 2024-07-02 16:03:38 0 收藏

Flink Sql-用户自定义 Sources & Sinks

在许多情况下，开发人员不需要从头开始创建新的连接器，而是希望稍微修改现有的连接器或 hook 到现有的 stack。在其他情况下，开发人员希望创建专门的连接器。本节对这两种用例都有帮助。它解释了表连接器的一般体系结构，从 API 中的纯粹声明到在集群上执行的运行时代码实心箭头展示了在转换过程中对象如

overfit同步小助手 2024-07-02 15:03:53 0 收藏

kafka（一）原理（2）组件

kafka服务器的官方名字，一个集群由多个broker组成，一个broker可以容纳多个topic。

overfit同步小助手 2024-07-02 15:03:45 0 收藏

kafka-主题创建（主题操作的命令）

一个分区可以有多个副本（replicas：负责接收数据的分区副本为leader，其他的为follower）副本数量不能超过broker数量。一个topic可能拆分成多个分区（partition）kafka发送消息会存到主题中。消费者会从主题中获取消息消费。

overfit同步小助手 2024-07-02 15:03:34 0 收藏

Flink入门实战详解

Flink入门实战

overfit同步小助手 2024-07-02 14:03:52 0 收藏

大数据与能源行业：智能能源管理与节能分析

1.背景介绍能源行业是全球经济发展的基石，也是国家安全和社会福祉的重要支柱。随着全球能源需求的增加，能源资源的紧缺和环境污染问题日益凸显。因此，提高能源利用效率，节能减排，实现可持续发展，成为能源行业的核心任务之一。大数据技术在过去的几年里迅速发展，为各行各业带来了革命性的变革。在能源行业中，大数据

overfit同步小助手 2024-07-02 14:03:40 0 收藏

Hive数据库系列--Hive文件格式/Hive存储格式/Hive压缩格式

overfit同步小助手 2024-07-02 13:03:50 0 收藏

【Hadoop集群搭建】实验4：完全分布式 Hadoop 安装部署及测试

1. 掌握 SSH 免密钥通信配置方法2. 掌握 Hadoop 集群配置部署方法集群安装配置完整过程a) 3 台客户机（关闭防火墙、设置好IP、主机名、时钟同步等信息在之前发布的博客有）b) 分别安装 JDK 并配置环境变量c) 安装 Hadoop 并配置环境变量d) 配置 SSH 免密钥通信e)

overfit同步小助手 2024-07-02 12:03:48 0 收藏

spark-3.5.1+Hadoop 3.4.0+Hive4.0 分布式集群安装配置

三 Spark 与Hive 集成。1 拷贝配置文件和Mysql 驱动。2 登录hive，创建测试表。3 启动 spark-sql。3 安装spark。

overfit同步小助手 2024-07-02 12:03:11 0 收藏

Hive-执行insert时报错或极其缓慢

背景：我是新手在跟着某硅谷学习hive的时候遇到这类问题，后来发现有两种方式解决；

overfit同步小助手 2024-07-02 11:03:49 0 收藏

基于Django大数据的银行信用卡用户数仓系统

💗博主介绍：✌全网粉丝100W+,CSDN特邀作者、博客专家、CSDN新星计划导师、全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、Python、PHP、小程序、大数据技术领域和毕业项目实战✌💗👇🏻 精彩专栏推荐订阅👇🏻 2023-2024

overfit同步小助手 2024-07-02 11:03:35 0 收藏

Spark内存计算引擎原理与代码实例讲解

Spark内存计算引擎原理与代码实例讲解1.背景介绍在当今大数据时代，数据处理和分析成为了许多企业和组织的核心需求。Apache Spark作为一种快速、通用的大数据处理引擎,凭借其内存计算优势和高度容错性,在各行各业中得到了广泛应用。Spark内存计算引擎是其核心组件之一,它通

overfit同步小助手 2024-07-02 10:03:48 0 收藏

【保姆级教程】使用SeaTunnel同步Kafka的数据到ClickHouse

从2.2.0-beta开始，二进制包默认不提供Connectors的依赖，因此在第一次使用它时，需要执行以下命令来安装连接器。附件是Apache SeaTunnel2.3.3版本的完整目录，包含MySQL、clickhouse的连接驱动和配置文件，包括。在数据同步过程中，确保目标表和源表都存在，并且

overfit同步小助手 2024-07-02 10:03:41 0 收藏

Spark性能优化（第22天）

Spark性能优化是一个系统工程，涉及多个方面，包括开发调优、资源调优、数据倾斜调优、shuffle调优等。在Spark作业的执行过程中，任何一个环节的不足都可能导致性能瓶颈。因此，我们需要从多个角度出发，对Spark作业进行全面的优化。

overfit同步小助手 2024-07-02 09:03:23 0 收藏

JMU 数科数据库与数据仓库期末总结（3）简答题

在这个StudentsStudentID是主键，用于唯一标识每一条学生记录。Name是学生姓名，不能为空。Gender表示性别，用单个字符'M'代表男性，'F'代表女性，通过CHECK约束确保数据的有效性。BirthDate记录学生的出生日期。记录学生入学日期，不能为空。ClassID是一个外键，用

overfit同步小助手 2024-07-02 08:03:31 0 收藏

RabbitMQ,想说爱你不容易(附详细安装教程)

RabbitMQwget https://dl.bintray.com/rabbitmq/all/rabbitmq-server/3.8.4/rabbitmq-server-generic-unix-3.8.4.tar.xz //下载RabbitMQxz -d rabbitmq-server-ge

overfit同步小助手 2024-07-02 06:03:44 0 收藏

Hive UDF自定义函数原理与代码实例讲解

Hive UDF自定义函数原理与代码实例讲解作者：禅与计算机程序设计艺术1. 背景介绍1.1 Hive SQL的局限性Hive SQL 是一种强大的数据仓库查询语言，提供了丰富的内置函数来处理数据

overfit同步小助手 2024-07-02 06:03:37 0 收藏

RabbitMQ无法删除unsynchronized队列及解决办法

操作系统：CentOS7。

overfit同步小助手 2024-07-02 06:03:15 0 收藏

面试专区|【70道Hive高频题整理(附答案背诵版)】

Hive是一个基于Hadoop的数据仓库工具，它可以将结构化的数据文件映射为一张数据库表，并提供简单的SQL查询功能，可以将SQL语句转换为MapReduce任务进行运行。Hive定义了简单的SQL查询语言称为HiveQL，该语言允许熟悉SQL的用户查询数据。同时，Hive提供了一个元数据存储，存储

overfit同步小助手 2024-07-02 05:03:41 0 收藏