大数据 - overfit.cn

友盟+｜如何通过阿里云Flink+Paimon实现流式湖仓落地方案

友盟+ 以“数据智能，驱动业务增长”为使命，为移动应用开发者和企业提供包括统计分析、性能监测、消息推送、智能认证等一站式解决方案。

overfit同步小助手 2024-06-03 03:03:49 0 收藏

Spark编程基础考点

第一章、大数据技术概述第一章、大数据技术概述。

overfit同步小助手 2024-06-03 03:03:41 0 收藏

hadoop学习---基于Hive的教育平台数据仓库分析案例（一）

基于hive的数据仓库搭建项目，主题是关于在线教育平台数据仓库搭建。

overfit同步小助手 2024-06-03 03:03:36 0 收藏

智慧农田可视化视频监控大数据综合管理平台方案

视频监控系统Liveweb智慧农田方案以数据、系统、智能装备为特征要素，与传统农业中的土地、动植物、生产工具等生产要素深度融合，实现农田的生产作业精准化，促进农田管理进入生产便捷、管理高效的现代智慧农业新时代。方案围绕智能感知、智能分析、智能控制技术与装备在农田生产中的集成应用，依托可视化监控云平台

overfit同步小助手 2024-06-03 02:03:58 0 收藏

hbase启动错误

从日志来看，HBase的RegionServer（在这里也被错误地标记为Master，尽管从日志内容来看它实际上是RegionServer）和（可能是）Master服务正在正常关闭。用户尝试写入 HDFS 的根目录但没有足够的权限，因此 HBase Master 进程无法继续运行，并启动了关闭流程。

overfit同步小助手 2024-06-03 02:03:37 0 收藏

Flink 调度源码分析3：Slot 分配策略

在Apache Flink中，Slot是用于执行并行任务的基本单位。Slot分配策略是指如何有效地将任务分配给可用的Slot，以最大化资源利用率和任务执行效率。

overfit同步小助手 2024-06-03 01:04:30 0 收藏

使用java操作rabbitmq中间件

这份《“java高分面试指南”-25分类227页1000+题50w+字解析》同样可分享给有需要的朋友，感兴趣的伙伴们可挑战一下自我，在不看答案解析的情况，测试测试自己的解题水平，这样也能达到事半功倍的效果！（好东西要大家一起看才香）//消费队列Consumer2这份《“java高分面试指南”-25分

overfit同步小助手 2024-06-02 23:03:59 0 收藏

(15)Hive调优——数据倾斜的解决指南

Hive调优——数据倾斜指南

overfit同步小助手 2024-06-02 22:03:59 0 收藏

Spark基础进阶

常量通过val关键字定义，在程序运行过程中值不会发生变化的量，其一旦定义就不可更改，无法对其进行重新计算或赋值。数组是一种储存了相同类型元素的固定大小的顺序集合。方法一：var arr:Array[string] = new Array[String](num)方法二：var arr:Array[s

overfit同步小助手 2024-06-02 22:03:55 0 收藏

机器学习_PySpark-3.0.3随机森林回归(RandomForestRegressor)实例

机器学习 PySpark-3.0.3随机森林回归(RandomForestRegressor)实例。

overfit同步小助手 2024-06-02 22:03:38 0 收藏

大数据BI可视化(Echarts组件)项目开发-熟悉结合Vue开发图表组件7.0附带1/6商家销售统计（横向柱状图）

本次文章讲解项目创建以及1/6商家销售统计（横向柱状图）组件开发，请关注后续指标开发，最终整合大屏可视化

overfit同步小助手 2024-06-02 22:03:17 0 收藏

【大数据篇】Hadoop：大数据处理的核心基石

Hadoop决定创建一个由许多小伙伴组成的探险队，每个小伙伴都擅长处理不同类型的数据。他找到了擅长存储大量数据的“HDFS”（Hadoop Distributed File System），让它负责建造一个巨大的数据仓库，用来存放所有收集到的数据。接着，Hadoop又找到了擅长并行处理的“MapRe

overfit同步小助手 2024-06-02 21:03:46 0 收藏

Hadoop伪分布式安装教程

hivesever2的模拟用户功能，依赖于Hadoop提供的proxy user（代理用户功能），只有Hadoop中的代理用户才能模拟其他用户的身份访问Hadoop集群。因此，需要将hiveserver2的启动用户设置为Hadoop的代理用户，配置方式如下：修改配置文件。首先，在根目录下创建文件夹

overfit同步小助手 2024-06-02 21:03:36 0 收藏

分布式领域计算模型及Spark&Ray实现对比

前面的章节首先对分布式计算领域进行了概述，同时对Spark和Ray的调度设计进行了简要的介绍。我们可以发现，Spark和Ray之所以会采用不同的调度设计，主要原因还在于它们的目标场景的需求差异。Spark当前的核心场景还在于批量的数据计算，在这样的需求场景下我们可以假设数据依赖图是较为简单的，不存在

overfit同步小助手 2024-06-02 20:03:53 0 收藏

【数据开发】pyspark入门与RDD编程

pyspark的用途机器学习专有的数据分析。数据科学使用Python和支持性库的大数据。spark与pyspark的关系spark是一种计算引擎，类似于hadoop架构下mapreduce，与mapreduce不同的是将计算的结果存入hdfs分布式文件系统。spark则是写入内存中，像mysql一样

overfit同步小助手 2024-06-02 18:04:44 0 收藏

el-tree-v2渲染树形大数据并设置默认展开

指定id就可以展开，原因应该是数据视图更新导致，但是未找到好的解决方法。2-判断为第一次加载，是就setExpandedKeys设置默认展开。1-设置了firstExpand为首次加载标志。实现1尝试失败：增加设置了属性。

overfit同步小助手 2024-06-02 16:03:48 0 收藏

分布式锁实现方案-基于zookeeper的分布式锁实现（原理与代码）

分布式锁是一种用于控制分布式系统中对共享资源访问的同步机制，它确保在多个节点或进程中访问共享资源时的排他性。分布式锁的应用场景广泛，如防止多个用户同时修改数据、控制分布式系统中对共享资源的并发访问等。分布式锁的实现方式主要有三种，包括：基于数据库的实现方式。基于缓存（如Redis或Memcached

overfit同步小助手 2024-06-02 16:03:44 0 收藏

HBase 数据导入导出

HBase 数据导入导出及命令行操作HBase

overfit同步小助手 2024-06-02 07:03:37 0 收藏

大数据Spark--运行环境和架构

Spark 集群的独立部署环境中，不需要依赖其他的资源调度框架，自身就实现了资源调度的功能，所以环境中还有其他两个核心组件：Master和Worker，这里的Master是一个进程，主要负责资源的调度和分配，并进行集群的监控等职责，类似于Yarn环境中的RM, 而Worker 呢，也是进程，一个Wo

overfit同步小助手 2024-06-02 05:03:55 0 收藏

docker安装flink

安装flink + kafka

overfit同步小助手 2024-06-02 05:03:51 0 收藏