大数据 - overfit.cn

hive常用SQL函数及案例

Hive会将常用的逻辑封装成函数给用户进行使用，类似于Java中的函数。好处：避免用户反复写逻辑，可以直接拿来使用。重点：用户需要知道函数叫什么，能做什么。Hive提供了大量的内置函数，按照其特点可大致分为如下几类：单行函数、聚合函数、炸裂函数、窗口函数。以下命令可用于查询所有内置函数的相关信息。

overfit同步小助手 2024-06-17 11:03:15 0 收藏

kafka--一些问题

一个partition可以有多个副本，且每个副本可以分布在不同的broker上，多副本中必须有一个leader，其他的都叫follower，消息会发送到leader，其他follower会同步leader的数据，生产者和消费者只会连接leader，follower只是为了提高存储安全性。设置 unc

overfit同步小助手 2024-06-17 10:03:43 0 收藏

11、Flink 的 Keyed State 详解

Flink 的 Keyed State 详解

overfit同步小助手 2024-06-17 10:03:35 0 收藏

大数据相关常用软件下载地址集锦

由于大数据开发中经常需要用到Zookeeper、Hadoop、Spark、HBase、Kafka、Flume、Redis、Hive等软件，安装的时候需要它们的下载地址，这里就汇总一下，方便同学们查找。欢迎start，欢迎评论，欢迎指正。一、软件下载地址如下。

overfit同步小助手 2024-06-17 10:03:14 0 收藏

Flink1.16.0下载安装部署

一、通过命令行下载二、Windows下载1.访问下方链接即可下载3.传输成功后，同样操作进行解压。

overfit同步小助手 2024-06-17 09:03:47 0 收藏

ClickHouse10-ClickHouse中Kafka表引擎

Kafka表引擎也是一种常见的表引擎，在很多大数据量的场景下，会从源通过Kafka将数据输送到ClickHouse，Kafka作为输送的方式，ClickHouse作为存储引擎与查询引擎，大数据量的数据可以得到快速的、高压缩的存储。

overfit同步小助手 2024-06-17 08:03:51 0 收藏

问你为什么选择Kafka，你会怎么回答？

可靠的含义在百度百科的解释是：可以信赖、可以相信、可靠的朋友。那Kafka究竟是不是一个可靠的朋友呢？既然全世界绝大部分高可用系统都有Kafka的支持，Kafka必定有其过人之处，跟着我来分析分析。另外多提一嘴Kafka在GitHub目前已有star数27.6k、fork数13.6k。本文收录在我开

overfit同步小助手 2024-06-17 07:03:48 0 收藏

一、大数据集群搭建

通过VMware虚拟机搭建大数据集群搭建，本文描述了较为详细的集群搭建步骤，旨在帮助小白同学快速上手搭建，也是方便自己后期复习。

overfit同步小助手 2024-06-17 06:03:51 0 收藏

Hadoop集群部署（完全分布式模式、hadoop2.7.3+安装包）

overfit同步小助手 2024-06-17 05:03:43 0 收藏

Flink Catalog

按照SQL的解析处理流程在Parse解析SQL以后，进入执行流程——executeInternal。其中有个分支专门处理创建Catalog的SQL命令创建Catalog会去全包查找对应的CatalogFactory的子类，然后使用配置的子类构建这里注意，上面的步骤只查询classpath下的类，像H

overfit同步小助手 2024-06-17 05:03:30 0 收藏

使用 ZipArchiveInputStream 读取压缩包内文件总数

overfit同步小助手 2024-06-17 04:03:57 0 收藏

实时大数据流处理技术：Spark Streaming与Flink的深度对比

Flink在流处理、状态管理和低延迟方面表现更优，而Spark Streaming在批处理和微批处理场景、以及成熟的生态系统支持方面有其独到之处。由于Flink的设计更加注重流处理，它能够为需要高吞吐量和低延迟的应用提供更优的支持。由于其广泛的社区支持和成熟的生态系统，提供了大量的库和API，使得开

overfit同步小助手 2024-06-17 04:03:52 0 收藏

云计算与大数据课程笔记（八）之虚拟化技术（上）

Hypervisor，也称为虚拟机监视器（VMM），是服务器虚拟化中的核心软件。它允许多个操作系统在同一台物理服务器上并行运行，每个操作系统都在自己的虚拟机内运行，并且彼此隔离。Hypervisor负责分配硬件资源给每个虚拟机，如CPU时间、内存空间等，并确保虚拟机之间不会相互干扰。

overfit同步小助手 2024-06-17 04:03:35 0 收藏

大数据和AI在半导体生产系统中的应用

**做法和方法**：收集设备运行数据，训练预测模型，设定阈值触发维护。- **做法和方法**：根据订单需求和设备状态，使用算法生成最优生产计划。- **做法和方法**：收集市场数据和客户反馈，使用文本分析了解市场情绪。- **做法和方法**：收集工艺参数和良率数据，使用优化算法调整参数。- **做法

overfit同步小助手 2024-06-17 03:03:28 0 收藏

kafka学习笔记 @by_TWJ

消息重复消费的问题可以通过多种方法解决，主要包括消费幂等性、消息去重、消息确认机制、消息重试机制、保证消息的顺序性以及将消息进行持久化存储。kafka消息事务

overfit同步小助手 2024-06-17 02:03:53 0 收藏

采用Flink CDC操作SQL Server数据库获取增量变更数据

Slf4j@Overridetry {// 获取操作类型 CREATE UPDATE DELETE 1新增 2修改 3删除2 : 3;//7.输出数据log.error("SQLServer消息读取自定义序列化报错：{}", e.getMessage());/*** 从源数据获取出变更之前或之后的数

overfit同步小助手 2024-06-17 01:03:50 0 收藏

关于kafka总是运行没多久就挂掉的问题

先是按网上的说法，打开了kafka/config/server.properties文件，并没有发现broker.id设置错误的情况。最后问题一一排查，原来是没有节点之间的防火墙没有完全关闭，遂在三个节点上逐一输入“systemctl stop firewalld”。先后启动了zookeeper和k

overfit同步小助手 2024-06-17 01:03:47 0 收藏

zookeeper之基本命令

create [-s] [-e] [-c] [-t ttl] path [data] [acl]容器节点是Zookeeper 3.5版本以后新增的节点类型，与普通节点（持久节点）的主要区别在于其自动清理的特性和专门的使用场景。具体如下： delete [-v version] path

overfit同步小助手 2024-06-17 00:03:49 0 收藏

全球极其先进的GPU服务器推荐大数据推理、大数据训练、高性能GPU服务器

现在，在之前的系统中需要消耗数周计算资源的人工智能模型在几天内就可以完成训练。例如，全球最大的超大规模计算公司最近估计，如果每个用户一天仅花费三分钟时间使用其语音识别服务，他们便需要将数据中心的容量翻倍。为推广适用于每种工作负载的首选服务器，推出 GPU 加速服务器平台，该平台用于为各种训练 (HG

overfit同步小助手 2024-06-17 00:03:44 0 收藏

《大数据 Spark2.x+协同过滤算法部分解析》

Spark2.x 提供了高效的分布式计算能力，能够处理大规模的数据。协同过滤算法是基于这样一个假设：如果用户 A 和用户 B 在过去有相似的偏好或行为，那么在未来他们也可能有相似的偏好。总之，Spark2.x+协同过滤算法在大数据推荐系统中具有重要地位，通过合理应用和不断优化，可以为用户提供更精准、

overfit同步小助手 2024-06-17 00:03:31 0 收藏