大数据 - overfit.cn

2023年4月各大学网络教育统考计算机应用基础考试复习题

2023年4月中央音乐学院计算机应用基础；其他各高校的计算机应用基础难度也同样不低，各高校的计算机单选题基本都维持在40-70道之间，单选题之外，还有操作题（目前各高校的操作题均为写出一步步的操作步骤，难度较大，可参考下图），计算机应用基础题量之多，根本不会给留多少时间让你思考，如果没有专业助考，自

overfit同步小助手 2023-05-04 01:03:50 0 收藏

第2关：伪分布式体验及分布式安装配置

第2关：伪分布式体验及分布式安装配置ZooKeeper之分布式环境搭建

overfit同步小助手 2023-05-04 01:03:45 0 收藏

工业大数据分析指南材料整理

工业大数据分析指南

overfit同步小助手 2023-05-04 00:03:37 0 收藏

python——spark入门

本文中，我们将首先讨论如何在本地机器上或者EC2的集群上设置Spark进行简单分析。然后，我们在入门级水平探索Spark，了解Spark是什么以及它如何工作（希望可以激发更多探索）。最后两节我们开始通过命令行与Spark进行交互，然后演示如何用Python写Spark应用，并作为Spark作业提交到

overfit同步小助手 2023-05-03 22:03:48 0 收藏

Spark SQL实战(07)-Data Sources

Spark SQL通过DataFrame接口支持对多种数据源进行操作。DataFrame可使用关系型变换进行操作，也可用于创建临时视图。将DataFrame注册为临时视图可以让你对其数据运行SQL查询。本节介绍使用Spark数据源加载和保存数据的一般方法，并进一步介绍可用于内置数据源的特定选项。lo

overfit同步小助手 2023-05-03 19:03:51 0 收藏

数据仓库-基础知识(维度建模)

数据仓库基础知识，包含维度建模中事实表、维度表、模型的详细说明

overfit同步小助手 2023-05-03 19:03:36 0 收藏

电商网站用户行为分析系统（前端展示大屏echarts+大数据hadoop存储系统）

我就是用的hadoop这个框架里面中的hdfs的一个重要的（分布式文件存储系统）来存储大量有需要用到的数据，它有一个很大的好处就是，存储的数据很安全，不会丢失，然后重点的就是数据的清洗和分析了，我主要用的是hive和hbase两种数据库来存储分析数据的，然后用mapreduce计算数据模型来将原始数

overfit同步小助手 2023-05-03 18:03:36 0 收藏

【比赛记录】国电投-光伏电站人工智能运维大数据处理分析比赛

深度学习与Xgbost在光伏电站人工智能运维大数据处理分析中的应用

overfit同步小助手 2023-05-03 17:03:52 0 收藏

K8s安装RabbitMq以及基本使用

rabbitmq属于有状态的服务，即每个服务上存储的内容都不一样，对于有状态的服务，k8s推荐我们使用StatefulSet控制器。rabbitmq中的部分信息需要持久化，持久化内容使用nfs进行存储,并使用storageclass动态分配pv。......

overfit同步小助手 2023-05-03 15:03:42 0 收藏

安装配置flume（超详细）

（百度网盘连接：链接：https://pan.baidu.com/s/1VeelyVBttwLMRS-2LGzp8w?内容：export JAVA_HOME=/home/newadd/software/jdk1.8.0_171。2、解压：tar -zxvf apache-flume-1.7.0-bi

overfit同步小助手 2023-05-03 14:04:03 0 收藏

HDFS启动的时候出现JAVA_HOME is not set and could not be found.

overfit同步小助手 2023-05-03 13:03:50 0 收藏

03.RabbitMQ安装启动

03.RabbitMQ安装启动想要安装RabbitMQ，必须先安装erlang语言环境，类似安装tomcat，必须先安装JDK查看匹配的版本：https://www.rabbitmq.com/which-erlang.html1.RabbitMQ安装启动erlang下载：https://dl.bin

overfit同步小助手 2023-05-03 12:03:40 0 收藏

Tableau数据分析&数据可视化分析平台

tableau产品定位：桌面分析软件，连接数据源后，只需简单拖拽即可快速创建交互的视图、仪表盘。产品定位：用于发布和管理Tableau Desktop制作的报表，并且可以发布和管理数据源产品定位：针对云分析建立，Tableau Server的托管版本，无需硬件部署维护产品定位：可将 Tableau

overfit同步小助手 2023-05-03 12:03:37 0 收藏

大数据实战 --- 淘宝用户行为数据分析

大数据实战 --- 淘宝用户行为

overfit同步小助手 2023-05-03 11:04:04 0 收藏

flink cep数据源keyby union后 keybe失效

flink cep数据源keyby后，再union数据源， keyby失效

overfit同步小助手 2023-05-03 11:03:41 0 收藏

Kafka 架构和原理机制 (图文全面详解)

图文详解 Kafka ，一文了解掌握 Kafka 的架构、原理、特性、应用场景、以及 Zookeeper 在 Kafka 中的作用。

overfit同步小助手 2023-05-03 09:03:48 0 收藏

Kafka重要生产参数配置建议

使用，可以保证消息的顺序性，假设有两条消息A、B，A先发送但失败了在执行重试时，B发送且成功了，之后A也重试成功了，此时A、B消息顺序就反了，如果将此参数设置为1，则可以保证A在重试时，B消息无法进行发送，必须等A收到broker响应后B才能发送，设置较高可以提升吞吐量，但会占用更多的内存，此参数值

overfit同步小助手 2023-05-03 08:03:50 0 收藏

kafka笔记

分区应答，回复成功，则清除sender发送的数据以及分区器队列中的数据，失败则重试（次数不限）。原因说明：因为在kafka1.x以后，启用幂等后，kafka服务端会缓存producer发来的最近5个request的元数据，故无论如何，都可以保证最近5个request的数据都是有序的。有指定分区，按指

overfit同步小助手 2023-05-03 08:03:34 0 收藏

元数据管理：DataHub和OpenMetadata对比分析

DataHub和OpenMetadata都试图解决数据编目，搜索，发现，治理和质量方面的相同问题。这两种工具都是出于为需要支持大量数据源、团队和用例的大型组织解决这些问题而诞生的。尽管这些工具在发布历史和成熟度方面略有不同，但它们的功能存在显着重叠。

overfit同步小助手 2023-05-03 07:03:58 0 收藏

熟悉常用的HBase操作

overfit同步小助手 2023-05-03 07:03:45 0 收藏