大数据 - overfit.cn

Hive实战：分科汇总求月考平均分

上传数据到hdfs、从hdfs加载数据到hive

overfit同步小助手 2024-01-13 12:03:41 0 收藏

Spark SQL

Spark SQL是Spark中用于结构化数据处理的组件，它提供了一种通用的访问多种数据源的方式，可以访问的数据源包括Hive、Avro、Parquet、ORC、JSON和JDBC等。

overfit同步小助手 2024-01-13 11:03:53 0 收藏

Flink｜《Flink 官方文档 - DataStream API - 状态与容错 - 使用状态》学习笔记

例如，Kafka Connector 是 Flink 中就使用了算子状态，Kafka consumer 的每个并行实例维护了 topic partitions 和偏移量的 map 作为它的算子状态。需要注意的是：因为在开启 TTL 特性后，状态上次的修改时间会和数据一起保存在 state backe

overfit同步小助手 2024-01-13 11:03:37 0 收藏

Hive字符串截取函数substr详解

Hive中的substr函数可以用来截取字符串的一部分，并返回截取后的结果。该函数有三个参数：第一个参数是要截取的字符串，第二个参数是截取的起始位置（从1开始），第三个参数是截取的长度。注意，如果截取的长度超过了字符串的实际长度，Hive会返回整个字符串。举个例子，假设有一个字符串。

overfit同步小助手 2024-01-13 10:03:17 0 收藏

ZooKeeper 高级应用

ZooKeeper 是 Apache 软件基金会的一个软件项目，它为大型分布式计算提供开源的分布式配置服务同步服务和命名注册，在架构上，通过冗余服务实现高可用性（CP）。ZooKeeper 的设计目标是将那些复杂且容易出错的分布式一致性服务封装起来，构成一个高效可靠的原语集，并以一系列简单易用的接口

overfit同步小助手 2024-01-13 09:03:53 0 收藏

你真的了解Zookeeper吗？

在分布式系统中，Zookeeper是一款非常重要的分布式协调服务框架。本文将深入介绍Zookeeper的基本概念、核心特性，并通过实际案例展示Zookeeper在分布式系统中的应用。Zookeeper是一种分布式协调服务，它提供了一个简单的文件系统命名空间和一个基于观察者模式的分布式服务。其主要作用

overfit同步小助手 2024-01-13 09:03:42 0 收藏

kafka发送大消息

此为 Kafka 中端到端的块压缩功能。如果启用，数据将由 producer 压缩，以压缩格式写入服务器，并由 consumer 解压缩。压缩将提高 consumer 的吞吐量，但需付出一定的解压成本。压缩就是用时间换空间，其基本理念是基于重复，将重复的片段编码为字典，字典的 key 为重复片段，v

overfit同步小助手 2024-01-13 08:03:58 0 收藏

Flink CEP完全指南：捕获数据的灵魂，构建智慧监控与实时分析大师级工具

掌握Flink CEP，即时捕捉关键事件，助力企业智慧监控与实时数据分析；深入数据流心脏，创造无限可能。

overfit同步小助手 2024-01-13 08:03:30 0 收藏

Ubuntu/Linux安装JDK、Mysql、Redis、Rabbitmq、Nginx 并设置开机自启动

overfit同步小助手 2024-01-13 08:03:21 0 收藏

Spark在Windows下的环境搭建及pyspark的使用

1、将Spark目录下的pyspark文件夹（D:\Spark\spark-2.2.0-bin-hadoop2.7\python\pyspark）复制到要使用的python环境的安装目录（E:\APP\python3.7.0\Lib\site-packages）里。最好解压到一个盘的根目录下，并重命

overfit同步小助手 2024-01-13 07:03:52 0 收藏

保姆级连接FusionInsight MRS kerberos Hive

本文将介绍在华为云 FusionInsight MRS（Managed Relational Service）的Kerberos环境中，如何使用Java和DBeaver实现远程连接Hive的方法。

overfit同步小助手 2024-01-13 06:03:19 0 收藏

【大数据】Spark学习笔记

Spark学习笔记; 包含了Spark的基本概念/调度器/优化/RDD算子及SparkSQL的相关概念

overfit同步小助手 2024-01-13 05:03:43 0 收藏

Spark GraphX：图计算框架初探

GraphX基于Spark的RDD（弹性分布式数据集）实现，能够自动地进行数据的分区和并行化，从而在大规模图数据上实现高效的计算。GraphX作为Apache Spark中的图计算框架，为大规模图数据的处理和分析提供了高效、可扩展的解决方案。未来随着图数据规模的不断增长和图计算技术的不断发展，Gra

overfit同步小助手 2024-01-13 05:03:18 0 收藏

HiveSql语法优化二：join算法

SMB Map Join同Bucket Map Join一样，同样是利用两表各分桶之间的关联关系，在分桶之间进行join操作，不同的是，分桶之间的join操作的实现原理。SMB Map Join要求，参与join的表均为分桶表，且需保证分桶内的数据是有序的，且分桶字段、排序字段和关联字段为相同字段，

overfit同步小助手 2024-01-13 03:03:52 0 收藏

kafka下载安装部署

Apache kafka 是一个分布式的基于push-subscribe的消息系统，它具备快速、可扩展、可持久化的特点。它现在是Apache旗下的一个开源系统，作为hadoop生态系统的一部分，被各种商业公司广泛应用。它的最大的特性就是可以实时的处理大量数据以满足各种需求场景：比如基于hadoop的

overfit同步小助手 2024-01-13 03:03:41 0 收藏

Eureka注册中心

注意：一个微服务，既可以是服务提供者，又可以是服务消费者，因此eureka将服务注册、服务发现等功能统一封装到了eureka-client端。下面，我们将order-service的逻辑修改：向eureka-server拉取user-service的信息，实现服务发现。- user-service服

overfit同步小助手 2024-01-13 03:03:30 0 收藏

RabbitMQ基础知识

RabbitMQ是一个，用于在应用程序之间实现。它实现了AMQP（Advanced Message Queuing Protocol）协议，可以在分布式系统中传递和存储消息。消息队列是一种将消息发送者和接收者解耦的机制。发送者将消息发送到队列中，然后接收者从队列中获取消息并进行处理。这种方式可以提高

overfit同步小助手 2024-01-13 02:03:52 0 收藏

ubuntu22.04下hadoop3.3.6+hbase2.5.6+phoenix5.1.3开发环境搭建

然后把这个合成的jar包复制到想用的机器上的DBeaver的安装目录下的plugins目录下（纯个人喜好，实际放哪儿都行），然后启动dbeaver添加phoenix连接，在出来的配置界面中选择驱动，把这个包添加进去，就可以正常使用了。这里会出现的问题是，执行sqlline.py后长时间卡住不动的现象

overfit同步小助手 2024-01-13 01:03:45 0 收藏

ClickHouse Kafka 引擎教程

ClickHouse 可以使用 Kafka 表引擎和物化视图直接从 Kafka 主题读取消息，该视图获取消息并将其推送到 ClickHouse 目标表。在此示例中，“kafka”是服务器的 DNS 名称。正如这篇博客文章所展示的，Kafka 表引擎提供了一种简单而强大的方法来集成 Kafka 主题和

overfit同步小助手 2024-01-13 01:03:19 0 收藏

Hive之set参数大全-1

是 Apache Hive 中的一个配置属性，用于控制是否允许在需要时按需加载用户定义函数（UDF）。在 Hive 中，UDFs是用户编写的自定义函数，可以在 Hive SQL 查询中使用。这个配置属性的目的是在查询执行期间动态加载UDFs，而不是在Hive服务器启动时就加载所有UDFs，从而减小启

overfit同步小助手 2024-01-13 00:03:13 0 收藏