大数据 - overfit.cn

大数据实训2

这里我们需要提取每一条数据中的ip、url、pageId、contry、province、city字段。本项目中需要解析出：ip、url、pageId（topicId对应的页面Id）、country、province、city。我们需要提取每一条数据中的ip，在Map阶段使用ip解析的工具类，将每个

overfit同步小助手 2024-07-12 15:03:32 0 收藏

Hadoop 2.0 大家族（二）

本文讲解Hadoop2.0大家族，介绍Hbase和Pig。

overfit同步小助手 2024-07-12 13:03:51 0 收藏

Kafka学习笔记01【2024最新版】

为什么分布式系统之间它需要使用一个软件来完成数据交换的这个过程？那说到我们数据交换啊，在java开发的这个普通场景中，主要指的就是线程和线程之间的数据交换以及呢进程和进程之间的数据交换。我们线程和线程之间是如何做数据交换的，其实呢我们主要是用内存来完成这个操作的。首先我们的java虚拟机当中，每个线

overfit同步小助手 2024-07-12 13:03:44 0 收藏

14-Kafka-Day03

可以理解为分配的结果带有“粘性的”。即在执行一次新的分配之前，考虑上一次分配的结果，尽量少的调整分配的变动，可以节省大量的开销。粘性分区是 Kafka 从 0.11.x 版本开始引入这种分配策略，首先会尽量均衡的放置分区到消费者上面，在出现同一消费者组内消费者出现问题的时候，会尽量保持原有分配的

overfit同步小助手 2024-07-12 12:03:38 0 收藏

Kafka-Produce客户端源码流程

KafkaProducer中会起一个Sender线程，Sender线程中主要有两个方法：sendProducerData()和client.poll()。sendProducerData()负责准备数据并将数据set到通道中等待发送，client.poll()负责真正执行网络的io操作，在每次pol

overfit同步小助手 2024-07-12 11:03:46 0 收藏

(06)Hive——正则表达式

Hive正则表达式

overfit同步小助手 2024-07-12 11:03:42 0 收藏

推荐文章：PyDeequ - 大数据质量的守护者

推荐文章：PyDeequ - 大数据质量的守护者项目地址:https://gitcode.com/awslabs/python-deequ在大数据时代，确保数据的质量是数据分析和机器学习成功的基石。今天，我们有幸介绍一款强大的工具——PyDeequ，这是专为Python开发者量身打造的数据质量检验框

overfit同步小助手 2024-07-12 10:03:41 0 收藏

Flink 的架构与组件

1.背景介绍Flink 是一个流处理框架，用于实时数据处理和分析。它是一个开源项目，由阿帕奇基金会支持和维护。Flink 的设计目标是提供一个高性能、可扩展、可靠的流处理平台，用于处理大规模、实时数据。Flink 支持各种数据源和接口，如 Kafka、HDFS、TCP 流等，并可以将处理结果输出到各

overfit同步小助手 2024-07-12 09:03:46 0 收藏

大数据入门实践一：mac安装Hadoop，Hbase，FLume

安装hadoop参考此文，关键点是安装JDK和Hadoop的配置，为避免引用文章变收费，我把关键信息摘录如下：jdk安装和配置就不说了，hadoop安装过程：1. 打开系统偏好设置，在输入框输入sharing（共享），勾选”远程连接“：2.打开终端，依次输入如下命令：3.输入【ssh localho

overfit同步小助手 2024-07-12 09:03:39 0 收藏

Spark SQL

Spark SQL详解

overfit同步小助手 2024-07-12 08:03:20 0 收藏

Spark期末汇总

从第二章到第五章的各种方法总结

overfit同步小助手 2024-07-12 08:03:16 0 收藏

Hbase的shell命令（详细）

Hbase的shell命令，包括命名空间操作(namespace)，表操作（DDL），数据操作(DML),计数器，修饰词过滤，FILTER条件过滤器,与region有关的命令

overfit同步小助手 2024-07-12 04:03:40 0 收藏

Spark SQL----数据类型

在处理与标准浮点语义不完全匹配的float或double类型时，会对非数字(NaN)进行特殊处理。Spark SQL的所有数据类型都位于pyspark.sql.types包中。你可以通过以下方式访问它们。对正无穷大和负无穷大有特殊处理。

overfit同步小助手 2024-07-12 04:03:37 0 收藏

Spark SQL中的正则表达式应用

正则表达式在Spark SQL中是一个强大而versatile的工具,它不仅能够处理文本数据,还能在ETL流程、数据验证、特征工程等多个方面发挥重要作用。然而,使用正则表达式需要在表达能力和性能之间找到平衡。通过深入理解正则表达式的工作原理,结合Spark SQL的特性,并注意安全性考虑,我们可以更

overfit同步小助手 2024-07-12 03:03:48 0 收藏

MySQL如何快速插入千万级大数据

在现代数据驱动的应用中，数据库的性能至关重要。当需要向MySQL数据库中插入千万级甚至亿级的大数据时，传统的插入方法往往效率低下，无法满足实时性和吞吐量的要求。本文将详细介绍如何在MySQL中快速插入千万级大数据，包括优化策略、工具和技术，帮助读者提升数据插入性能。

overfit同步小助手 2024-07-11 23:03:49 0 收藏

【消息队列】RabbitMQ五种消息模式

Spring AMQP是基于AMQP协议定义的一套API规范，提供了模板来发送和接收消息，包含两部分，其中Spring-amqp是基础抽象，spring-rabbit是底层的默认实现。这是为了防止消息队列中的队列不存在，在进行消息队列初始化的时候不知道是先建立消费者，还是先建立生产者，所以都执行创建

overfit同步小助手 2024-07-11 22:04:00 0 收藏

如何在hadoop2的环境中使用纠删码(hadoop Erasure Coding)

在Proxy FileSystem中，根据path中namenode判定是hdfs2还是hdfs3，如果是hdfs3，则通过classloader，加载hdfs3的jar，而hdfs3的jar包，事先我们已经采用assembly的方式，将hdfs3所依赖的所有包然后外加HDFS3ProxyFileS

overfit同步小助手 2024-07-11 22:03:54 0 收藏

Spring Cloud-超详细讲解Eureka服务注册中心

学完之后，若是想验收效果如何，其实最好的方法就是可自己去总结一下。比如我就会在学习完一个东西之后自己去手绘一份xmind文件的知识梳理大纲脑图，这样也可方便后续的复习，且都是自己的理解，相信随便瞟几眼就能迅速过完整个知识，脑补回来。下方即为我手绘的MyBtis知识脑图，由于是xmind文件，不好上传

overfit同步小助手 2024-07-11 22:03:51 0 收藏

Hadoop 面试题（七）

1. 简述以下选项中不参与hdfs写流程的组件是？2. 简述下列哪一个组件不是Hadoop系统的组件之一（）？3. 简述有关Hadoop的高可用下列描述错误的是（）？4. 简述关于安全模式命令，正确的是（）？5. 简述下列关于Hadoop架构组件描述错误的是() ？6. 简述请问以下哪个命令

overfit同步小助手 2024-07-11 22:03:41 0 收藏

Flink集群部署

创建maven工程，JDK1.8，导入相关依赖</</</</</</</</</</</

overfit同步小助手 2024-07-11 21:03:53 0 收藏