大数据 - overfit.cn

Win10 环境下 spark 本地环境的搭建

此电脑(右击)==>属性==>高级系统设置==>环境变量==>系统变量==>Path==>新建。此电脑(右击)==>属性==>高级系统设置==>环境变量==>系统变量==>Path==>新建。此电脑(右击)==>属性==>高级系统设置==>环境变量==>系统变量==>Path==>新建。下载 jdk

overfit同步小助手 2023-12-05 12:03:40 0 收藏

Flume 整合 Kafka

以实时流处理项目为例，由于采集的数据量可能存在峰值和峰谷，假设是一个电商项目，那么峰值通常出现在秒杀时，这时如果直接将 Flume 聚合后的数据输入到 Storm 等分布式计算框架中，可能就会超过集群的处理能力，这时采用 Kafka 就可以起到削峰的作用。Kafka 天生为大数据场景而设计，具有高吞

overfit同步小助手 2023-12-05 12:03:11 0 收藏

图解Spark Graphx基于connectedComponents函数实现连通图底层原理

overfit同步小助手 2023-12-05 10:03:35 0 收藏

Hadoop RPC简介

数新网络-让每个人享受数据的价值RPC（Remote Procedure Call）远程过程调用协议，一种通过网络从远程计算机上请求服务，而不需要了解底层网络技术的协议。RPC它假定某些协议的存在，例如TPC/UDP等，为通信程序之间携带信息数据。在OSI网络七层模型中，RPC跨越了传输层和应用层，

overfit同步小助手 2023-12-05 03:03:12 0 收藏

大数据技术原理与应用概念、存储、处理、分析和应用（林子雨）——第五章 NoSQL数据库

overfit同步小助手 2023-12-05 02:03:38 0 收藏

大数据智能决策系统架构：决策系统与自动驾驶

作者：禅与计算机程序设计艺术 1.简介自动驾驶、智能出行以及城市规划等领域，已经引起越来越多人的关注。如何快速、精准地解决这些复杂的问题，让智能出行产品的用户感到舒适、安全以及顺畅，是目前研究的热点。但是，如何将一个自动驾驶、智能出行、城市规划问题，转化成自动化

overfit同步小助手 2023-12-04 23:03:50 0 收藏

大数据组件-Flume集群环境搭建

Flume是一个分布式、可靠和高可用性的数据采集工具，用于将大量数据从各种源采集到Hadoop生态系统中进行处理。在大型互联网企业的数据处理任务中，Flume被广泛应用。Flume集群环境介绍：Agent：Flume的基本组成单元是Agent，用于在不同的节点之间传输数据。Agent可以是单节点或分

overfit同步小助手 2023-12-04 23:03:39 0 收藏

Flink Hive Catalog操作案例

在此对Flink读写Hive表操作进行逐步记录，需要指出的是，其中操作Hive分区表和非分区表的DDL有所不同，以下分别记录。

overfit同步小助手 2023-12-04 17:03:44 0 收藏

【数据集资源】大数据资源-数据集下载方法-汇总

数据集中的评价对象按照粒度不同划分为两个层次，层次一为粗粒度的评价对象，例如评论文本中涉及的服务、位置等要素；深证创业板日线数据，截止 2017.05.05，原始价、前复权价、后复权价，636支股票http://dataju.cn/Dataju/web/datasetInstanceDetail/3

overfit同步小助手 2023-12-04 16:03:50 0 收藏

Flink 的安装与基础编程

Apache Flink是一个分布式处理引擎，用于对无界和有界数据流进行有状态计算。Flink以数据并行和流水线方式执行任意流数据程序，它的流水线运行时系统可以执行批处理和流处理程序。此外，Flink 在运行时本身也支持迭代算法的执行。本文简要介绍了（单机与集群模式）Flink的安装以及基本编程方法

overfit同步小助手 2023-12-04 14:03:43 0 收藏

Flink 中KeyBy、分区、分组的正确理解

数据具体去往哪个分区，是通过指定的 key 值先进行一次 hash 再进行一次 murmurHash，通过上述计算得到的值再与并行度进行相应的计算得到。在Flink中，KeyBy作为我们常用的一个聚合类型算子，它可以按照相同的Key对数据进行重新分区，分区之后分配到对应的子任务当中去。Flink中的

overfit同步小助手 2023-12-04 11:03:32 0 收藏

企业数字化过程中数据仓库与商业智能的目标

显然，需要一整套的技能，这些技能既包括数据库管理的技能，也包括商业分析师的技能，才能更好地适应DW/BI的商业盛筵。精心组织不同来源的数据，实现数据清洗，确保质量，只有在数据真正适合用户的需要时发布。对操作型系统来说，用户无法对其加以选择，只能使用新系统，而对DW/BI系统来说，与操作型系统不同的是

overfit同步小助手 2023-12-04 03:03:46 0 收藏

Hadoop相关知识点

hdfs dfs -put ~/input/file.txt /test 和 hdfs dfs -put /input/file.txt /test 的区别在于文件的来源路径。B. 维护HDFS集群的所有数据块的分布、副本数和负载均衡：NameNode记录每个数据块的位置和副本信息，并负责管理数据块

overfit同步小助手 2023-12-04 00:03:48 0 收藏

跟着chatgpt学习|1.spark入门

总结起来，Cluster Manager负责资源的分配和任务调度，Driver负责解析用户程序并协调任务的执行，而Executor负责实际执行任务并返回计算结果。它们三者一起协作，实现了Spark应用程序的分布式计算。是Spark提供的机器学习库，包含了常见的机器学习算法和工具，用于数据挖掘和模型训

overfit同步小助手 2023-12-03 23:03:42 0 收藏

（保姆级）Hadoop-3.3.6、jdk_8u381搭建（大数据入门）

保姆级带领新手小白，完成hadoop-3.3.6、jdk_8u381的搭建

overfit同步小助手 2023-12-03 18:03:39 0 收藏

Sqoop将hive处理的数据导出到MySQL

sqoop将hive数据导出到mysql

overfit同步小助手 2023-12-03 17:03:42 0 收藏

HBase表数据的读、写操作与综合操作

实验任务1：使用MapReduce批量将HBase表中数据导入到HDFS上。表名和表中数据自拟。实验任务2：使用MapReduce批量将HDFS上的数据导入到HBase表中。表名和数据自拟，建议体现个人学号或姓名。使用Java编程创建表和删除表，表名和列族自拟。实验任务3：在实验任务1和实验任务2的

overfit同步小助手 2023-12-03 16:03:46 0 收藏

Flink中的窗口

本文主要介绍了窗口的分类以及各个窗口的API

overfit同步小助手 2023-12-03 14:03:22 0 收藏

开源解决方案OpenTelemetry的介绍以及如何将其与Prometheus结合使用

作者：禅与计算机程序设计艺术 1.简介OpenTelemetry 是 CNCF（Cloud Native Computing Foundation）旗下的一个开源项目。它的目标是在云原生时代成为应用性能监控领域的事实标准，目前已经成为 Prometheus、Ja

overfit同步小助手 2023-12-03 08:04:38 0 收藏

大数据linux基本环境准备（新手入门笔记）

桥接模式（虚拟机中的网卡地址需要和物理机网卡地址保持同一个网段，并且桥接网卡要设置好）tar -zxvf 压缩文件名 -C /usr/local/src 解压文件到指定目录。4、配置集群机器，将配置好网络的机器克隆2个出来，分别为slave1、slave2。1> vmware中右键虚拟机–》设置–

overfit同步小助手 2023-12-03 08:03:36 0 收藏