大数据 - overfit.cn

大数据相关

Storm专注于流式处理，延迟非常低；Kafka, 是一种分布式的，基于发布/订阅的消息系统,类似于消息对列的功能，可以接收生产者（如webservice、文件、hdfs、hbase等）的数据，本身可以缓存起来，然后可以发送给消费者（同上），起到缓冲和适配的作；Flume：分布式、可靠、高可用的服务

overfit同步小助手 2024-03-30 03:03:29 0 收藏

2024年【烟花爆竹经营单位安全管理人员】考试题库及烟花爆竹经营单位安全管理人员最新解析

剩余的烟火药,应( )。4、【单选题】《安全生产法》规定,个人经营的生产经营单位应当具备的安全生产条件所必须的资金投入,由( )予以保证,并对由于安全生产所必须的资金投入不足导致的后果承担责任。22、【单选题】安全生产管理工作应该做到预防为主,通过有效的管理和技术手段,减少和防止人的不安全行为和物的

overfit同步小助手 2024-03-30 00:06:47 0 收藏

【博学谷学习记录】超强总结，用心分享|大数据之flinkCDC

Flink CDC 基于数据库日志的 Change Data Caputre 技术，实现了全量和增量的一体化读取能力，并借助 Flink 优秀的管道能力和丰富的上下游生态，支持捕获多种数据库的变更，并将这些变更实时同步到下游存储。官网链接：https://ververica.github.io/fl

overfit同步小助手 2024-03-29 20:03:42 0 收藏

(增加细粒度资源管理)深入理解flink的task slot相关概念

深入理解flink的task slot相关概念

overfit同步小助手 2024-03-29 17:03:29 0 收藏

Pulsar 社区周报 | No.2024.03.08 Pulsar-Spark Connector 助力实时计算

关于ApachePulsarApache Pulsar 是 Apache 软件基金会顶级项目，是下一代云原生分布式消息流平台，集消息、存储、轻量化函数式计算为一体，采用计算与存储分离架构设计，支持多租户、持久化存储、多机房跨区域数据复制，具有强一致性、高吞吐、低延时及高可扩展性等流数据存储特性。Gi

overfit同步小助手 2024-03-29 14:03:06 0 收藏

HBase Shell 操作：自动拆分和预分区

Compaction 本质上是一个排序合并的操作，合并操作需要占用大量内存，因此文件越大，占用内存越多。Compaction 有可能需要迁移远程数据到本地进行处理，如果需要迁移的数据是大文件的话，带宽资源就会损耗严重。本关任务：在 HBase Shell 中使用预分区命令创建表使用预分区规则为/ap

overfit同步小助手 2024-03-29 13:03:36 0 收藏

Leo赠书活动-21期《一篇讲明白 Hadoop 生态的三大部件》

进入大数据阶段就意味着进入NoSQL阶段，更多的是面向OLAP场景，即数据仓库、BI应用等。大数据技术的发展并不是偶然的，它的背后是对于成本的考量。集中式数据库或者基于MPP架构的分布数据库往往采用的都是性能稳定但价格较为昂贵的小型机、一体机或者PC服务器等，扩展性相对较差；而大数据计算框架可以基于

overfit同步小助手 2024-03-29 12:03:36 0 收藏

云端巨擘：大数据与云计算的时代航向

云计算长定义：云计算是一种商业计算模型。它将计算任务分布在大量计算机构成的资源池上，使各种应用系统能够根据需要获取计算力、存储空间和信息服务。云计算短定义：云计算是通过网络按需提供可动态伸缩的廉价计算服务。

overfit同步小助手 2024-03-29 09:03:12 0 收藏

Spark实战-基于Spark日志清洗与数据统计以及Zeppelin使用

基于spark的数据清洗与统计，以及Zeppelin的配置与使用

overfit同步小助手 2024-03-29 07:03:49 0 收藏

数据仓库核心：揭秘事实表与维度表的角色与区别

在本篇博文中，我们深入探讨了数据仓库中事实表和维度表的关键角色与它们之间的显著差异。事实表，作为数据仓库的心脏，承载着量化的业务度量，而维度表则为这些度量提供了必要的上下文和解释。这种精心设计的结构不仅使我们能够高效地存储和检索数据，而且还能更加灵活和深入地进行数据分析，为企业的决策提供强有力的支持

overfit同步小助手 2024-03-29 07:03:40 0 收藏

Flink技术简介与入门实践

Flink 是一个分布式流处理和批处理计算框架，具有高性能、容错性和灵活性。JobManager：JobManager 是 Flink 集群的主节点，负责接收和处理用户提交的作业。解析和验证用户提交的作业。生成执行计划，并将作业图分发给 TaskManager。协调任务的调度和执行。管理作业的状态和

overfit同步小助手 2024-03-29 05:03:54 0 收藏

基于 Spark 的电商用户行为分析系统

基于Spark的电商用户行为数据分析

overfit同步小助手 2024-03-29 05:03:32 0 收藏

【入门学习大数据】安装基础设施一：VMware & CentOS & 远程工具

boot容量给1G，swap容量给同之前选的内存大小相同（你设置过的自然记得起，没设置过的就是1G），剩下的都给根目录。有能上传：压缩包文件、软件及应用的安装文件，上传和下载速度还可以的网盘/快传，知道的话，可以告知一下我。看一下能否上网，顶栏有这个图标就行（图片是自动加水印的，我也不知道怎么去除，

overfit同步小助手 2024-03-29 04:03:41 0 收藏

Spark---创建DataFrame的方式

5、DataFrame是一个Row类型的RDD，df.rdd()/df.javaRdd()。3、DataFrame原生API可以操作DataFrame。4、注册成临时表时，表中的列默认按ascii顺序显示列。2、df.show()默认显示前20行数据。ErrorIfExists：如果存在就报错。1、

overfit同步小助手 2024-03-28 22:03:48 0 收藏

毕业设计大数据电商用户行为分析及可视化(源码+论文)

今天学长向大家介绍一个机器视觉的毕设项目，大数据电商用户行为分析及可视化(源码+论文)毕业设计基于大数据淘宝用户行为分析。

overfit同步小助手 2024-03-28 21:03:52 0 收藏

Spark_spark shell退出方式

本文介绍了四种退出Spark Shell的方式：使用退出命令、使用Ctrl+D组合键、使用系统命令和结束Shell进程。这些方式都可以有效地退出Spark Shell，并释放资源。在使用Spark Shell时，我们可以根据实际需求选择合适的退出方式。遵循良好的退出习惯，可以提高工作效率，同时避免资

overfit同步小助手 2024-03-28 19:03:47 0 收藏

Spark搭建日志，记录一些踩过的坑

本文记录在搭建hadoop与Spark的standalone模式中踩过的坑，有一定的借鉴作用

overfit同步小助手 2024-03-28 16:03:51 0 收藏

【大数据】Redis介绍和使用

Redis（Remote Dictionary Server）是一个开源的基于内存的数据结构存储系统，它提供了丰富的数据结构（如字符串、哈希表、列表、集合、有序集合等），并支持多种操作（如读取、写入、删除、排序、计数等），具有高性能、持久化、复制、集群、事务等特性，被广泛应用于缓存、会话存储、消息队

overfit同步小助手 2024-03-28 16:03:44 0 收藏

【超全详解一文搞懂】Scala基础

Scala基础详解

overfit同步小助手 2024-03-28 14:02:06 0 收藏

sql server安装及使用全流程

再点击我接受许可条款，点击下一步，之后新出现的窗口会让你选择是否检查更新，大家可以根据自己的需要选择，默认是不检查更新，再点击下一步，这时会显示正在检查更新，如下图所示，不用管它，直接点击下一步。在下图所示的界面中，将我用红色矩形圈起来的地方进行修改，系统管理员的名称为sa，密码需要自己设定，一定不

overfit同步小助手 2024-03-28 11:02:14 0 收藏