大数据 - overfit.cn

HBase高级特性：过滤器（一）

1.使用过滤器的步骤：（1）创建过滤器：RowFilter(CompareOperator op,ByteArrayComparable rowComparator)，第一个参数接收的是比较操作对象，第二个参数接收的是条件。（2）设置过滤器。

overfit同步小助手 2024-06-09 17:03:30 0 收藏

【scau大数据技术与原理2】综合性实验Spark集群的安装和使用——安装启动spark shell篇

Spark是一个分布式计算框架，常用于大数据处理。本次实验中，首先设计一个包含主节点和从节点的Spark集群架构，并在CentOS的Linux环境下进行搭建。通过下载并解压Spark安装包，配置环境变量和集群参数，部署Spark集群。接着言编写Spark应用程序，并将其打包通过spark-submi

overfit同步小助手 2024-06-09 15:03:45 0 收藏

基于spark的大数据分析预测地震受灾情况的系统设计

在本篇博客中，我们将介绍如何使用Apache Spark框架进行地震受灾情况的预测。我们将结合数据分析、特征工程、模型训练和评估等步骤，最终建立一个预测模型来预测地震造成的破坏程度，同时使用可视化大屏的方式展示数据的分布。我们使用了合并后的地震数据作为我们的数据集。

overfit同步小助手 2024-06-09 15:03:29 0 收藏

flink-core核心功能及功能对应的技术实现

胡弦，视频号2023年度优秀创作者，互联网大厂P8技术专家，Spring Cloud Alibaba微服务架构实战派(上下册)和RocketMQ消息中间件实战派(上下册)的作者，资深架构师，技术负责人，极客时间训练营讲师，四维口袋KVP最具价值技术专家，技术领域专家团成员，2021电子工业出版社年度

overfit同步小助手 2024-06-09 12:03:30 0 收藏

Flink中的双流Join

在本例中，我们使用大小为2毫秒的滑动窗口，并将其滑动1毫秒，从而产生滑动窗口[-1，0]，[0,1]，[1,2]，[2,3]…在这里，您还可以看到，例如，在窗口[2,3]中，橙色②与绿色③连接，但在窗口[1,2]中没有与任何对象连接。在当前滑动窗口中，一个流的元素没有来自另一个流的元素，则不会发射！

overfit同步小助手 2024-06-09 12:03:11 0 收藏

Flink-cdc更好的流式数据集成工具

Flink CDC 是基于Apache Flink的一种数据变更捕获技术，用于从数据源（如数据库）中捕获和处理数据的变更事件。CDC技术允许实时地捕获数据库中的增、删、改操作，将这些变更事件转化为流式数据，并能够对这些事件进行实时处理和分析。Flink CDC提供了与各种数据源集成的功能，包括常见的

overfit同步小助手 2024-06-09 11:03:53 0 收藏

HDFS 之 DataNode 核心知识点

（2）删除原来HDFS文件系统留存的文件（ /opt/module/hadoop-2.7.2/data和 logs ），否则会出现hadoop2与hadoop3相互出现在集群中，因为两者的数据是相同的。添加主机名称（要退役的节点）【1】一个数据块在 DataNode上以文件形式存储在磁盘上，包括两个

overfit同步小助手 2024-06-09 09:04:45 0 收藏

Flink状态State | 大数据技术

在 Flink 中，状态是流处理程序中非常重要的一部分，它允许你保存和访问数据，以实现复杂的计算逻辑。可以简单理解为：历史计算结果

overfit同步小助手 2024-06-09 06:03:57 0 收藏

ZooKeeper 搭建详细步骤之一（单机模式）

ZooKeeper 的搭建模式包括单机模式、集群模式和伪集群模式，分别适用于不同的场景和需求，从简单的单节点测试环境到复杂的多节点高可用生产环境。在实际部署时，应根据系统的可用性要求、数据量、并发负载等因素选择合适的部署模式。

overfit同步小助手 2024-06-09 05:03:48 0 收藏

spark安装和编程实践（Spark2.1.0）

overfit同步小助手 2024-06-09 04:03:43 0 收藏

Flink系列二：DataStream API中的Source，Transformation，Sink详解（^_^）

举例：使用自定义source读取mysql中的数据/*实现方式：* 1、实现SourceFunction或ParallelSourceFunction接口来创建自定义的数据源。* 2、然后使用env.addSource(new CustomSourceFunction())或DataStreamSo

overfit同步小助手 2024-06-09 03:03:17 0 收藏

入门指南：理解Hadoop中的MapReduce

1.MapReduce是一种编程模型，用于处理大规模数据集的并行计算。它将任务分解成两个关键阶段：Map阶段和Reduce阶段。在Map阶段，数据被切分成独立的数据块，并由多个Map任务并行处理；在Reduce阶段，Map任务的输出被汇总和整合，最终生成最终结果。定义：MapReduce是一个分布式

overfit同步小助手 2024-06-09 01:03:47 0 收藏

Flink应用介绍

Flink本身的特性是非常灵活的，基于它的性能和特性，大胆想象，利用Flink去实现、优化需求，可能会有意想不到的好效果。

overfit同步小助手 2024-06-08 22:03:54 0 收藏

HBase的数据库数据迁移和数据导入导出

1.背景介绍1. 背景介绍HBase是一个分布式、可扩展、高性能的列式存储系统，基于Google的Bigtable设计。它是Hadoop生态系统的一部分，可以与HDFS、MapReduce、ZooKeeper等组件集成。HBase的主要特点是高性能、高可用性、自动分区和负载均衡等。数据迁移和数据导入

overfit同步小助手 2024-06-08 21:03:51 0 收藏

统计HBase表记录条数的方法

这是最简单直接的操作，但是执行效率非常低，适用于百万级以下的小表RowCount统计！这种方式效率非常高！利用了hbase jar中自带的统计行数的工具类！三、利用hbase.RowCounter包执行MR任务。一、hbase-shell的count命令。

overfit同步小助手 2024-06-08 20:03:50 0 收藏

【亲测】Hadoop 高可用集群搭建与开发环境部署

核心竞争力，怎么才能提高呢？成年人想要改变生活，逆转状态？那就开始学习吧~万事开头难，但是程序员这一条路坚持几年后发展空间还是非常大的，一切重在坚持。为了帮助大家更好更高效的准备面试，特别整理了《前端工程师面试手册》电子稿文件。

overfit同步小助手 2024-06-08 18:04:02 0 收藏

Apache Spark简介与历史发展

Apache Spark是一个用于大规模数据处理的快速、通用的计算引擎。本文深入介绍了Apache Spark，从其基本概念、历史发展、核心组件到生态系统的各个方面进行了详细的探讨。Spark作为一个快速、通用的大数据处理框架，具有高性能、多语言支持和丰富的内置库等优势，使其成为处理大规模数据的重要

overfit同步小助手 2024-06-08 18:03:48 0 收藏

flink的常见的任务提交方式

flink执行任务的三种方式，flinksql、flinkjar和flink Rest API

overfit同步小助手 2024-06-08 18:03:29 0 收藏

Flink 窗口

Flink窗口知识

overfit同步小助手 2024-06-08 17:03:54 0 收藏

PieCloudDB Database Flink Connector：让数据流动起来

PieCloudDB Flink Connector 是拓数派团队自研的一款 Flink 连接器，可用于将来自 Flink 系统中的数据高效地写入 PieCloudDB，配合 Flink 的 checkpoint 机制来保证数据导入结果的精准一次语义。本文将详细介绍 PieCloudDB Flink

overfit同步小助手 2024-06-08 17:03:34 0 收藏