大数据 - overfit.cn

HIVE SQL 根据主键去重并实现其余字段分组聚合

注意：此处是取的首个不为空（即不为null）的字段，所以在实际使用过程中应提前将空字符串转为null值。

overfit同步小助手 2023-08-22 15:04:22 0 收藏

zookeeper+kafka

主要原因是由于在高并发环境下，同步请求来不及处理，请求往往会发生阻塞。比如大量的请求并发访问数据库，导致行锁表锁，最后请求线程会堆积过多，从而触发 too many connection 错误，引发雪崩效应。我们使用消息队列，通过异步处理请求，从而缓解系统的压力。消息队列常应用于异步处理，流量削峰，

overfit同步小助手 2023-08-22 14:03:48 0 收藏

RSA加解密工具类（PKCS8公钥加密，PKCS1私钥解密）

overfit同步小助手 2023-08-22 12:04:15 0 收藏

zookeeper+kafka分布式消息队列集群的部署

Zookeeper是一个开源的分布式的，为分布式框架提供协调服务的Apache项目。主要原因是由于在高并发环境下，同步请求来不及处理，请求往往会发生阻塞。比如大量的请求并发访问数据库，导致行锁表锁，最后请求线程会堆积过多，从而触发 too many connection 错误，引发雪崩效应。我们使用

overfit同步小助手 2023-08-22 11:04:26 0 收藏

RabbitMQ 消息丢失的场景，如何保证消息不丢失？

如果需要保证消息在整条链路中不丢失，那就需要生产端、mq自身与消费端共同去保障。对生产的消息进行状态标记，开启confirm机制，依据mq的响应来更新消息状态，使用定时任务重新投递超时的消息，多次投递失败进行报警。开启持久化，并在落盘后再进行ack。如果是镜像部署模式，需要在同步到多个副本之后再进行

overfit同步小助手 2023-08-22 08:04:40 0 收藏

Kafka与Zookeeper版本对应关系

其中2.11表示的是Scala的版本，因为Kafka服务器端代码完全由Scala语音编写。”-“后面的1.1.1表示的kafka的版本信息。遵循一个基本原则，Kafka客户端版本和服务端版本应该保持一致，否则可能会遇到一些问题。可以根据源码包或者安装包来确认对应的zookeeper版本是哪个。支持的

overfit同步小助手 2023-08-22 08:04:36 0 收藏

Kafka-消费者组消费流程

消费者向kafka集群发送消费请求，消费者客户端默认每次从kafka集群拉取50M数据，放到缓冲队列中，消费者从缓冲队列中每次拉取500条数据进行消费。

overfit同步小助手 2023-08-22 08:04:26 0 收藏

【hive】hive中将string数据转为bigint的操作

【代码】【hive】hive中将string数据转为bigint的操作。

overfit同步小助手 2023-08-22 08:04:18 0 收藏

【大数据】Presto（Trino）SQL 语法进阶

Presto（Trino）是一个快速、分布式的SQL查询引擎，可以用于查询各种数据源，包括Hadoop、NoSQL、关系型数据库等。下面是Presto（Trino）SQL语法的概述：SELECT：用于从一个或多个表中检索数据，指定所需的列和过滤条件。FROM：用于指定要查询的表名、子查询或视图，这些

overfit同步小助手 2023-08-22 07:03:41 0 收藏

Flink与GoogleCloudBigtable：将数据存储在分布式列存储中

作者：禅与计算机程序设计艺术随着互联网和移动互联网的普及，海量的数据需要实时地被处理分析，而传统的关系型数据库已经无法满足需求。为了能够快速高效地对海量数据进行查询分析、数据采集、数据预处理等操作，分布式数据库应运而生。其中一种分布式数据库Google Big

overfit同步小助手 2023-08-22 06:04:16 0 收藏

腾讯云大数据ClickHouse遇见Schema-less: 半结构化数据分析性能提升20倍！

ClickHouse是一个开源的高性能列式数据库管理系统，也是高性能大数据实时分析引擎的基石。而在半结构化数据处理领域，ClickHouse显得力不从心。腾讯云数据仓库另辟蹊径融合Schema-less数据库灵活性能力，使得大数据实时分析系统兼具高性能与灵活性。

overfit同步小助手 2023-08-22 05:04:19 0 收藏

使用flink的sql-client.sh，测试mysql--＞kafka--＞kafka--＞mysql实时流

使用flink的sql-client测试数据流程mysql-->kafka-->kafka-->mysql

overfit同步小助手 2023-08-22 05:04:14 0 收藏

【Hive】分隔符『单字节分隔符 | 多字节分隔符』

1. 概述2. 单字节分隔符方法：使用delimited关键字3. 其它复杂情况方式一：写MR程序进行字符替换转为单字节分隔符问题（不推荐）方式二：自定义InputFormat转为单字节分隔符问题（不推荐）方式三：使用serde关键字（推荐）

overfit同步小助手 2023-08-22 05:04:10 0 收藏

Hive常见面试题

Hive是一个基于Hadoop生态系统的数据仓库和数据处理工具。它提供了类似于SQL的查询语言（HiveQL），使用户能够使用SQL语句来查询和分析大规模存储在Hadoop集群上的数据。Hive的主要作用是将大数据的处理变得更加易于理解和使用，尤其适合那些熟悉SQL查询语言的非技术用户。Hive

overfit同步小助手 2023-08-22 04:04:18 0 收藏

kafka（一）

kafka集群包括一个或者多个服务器，服务器的节点叫做broker。

overfit同步小助手 2023-08-22 04:03:59 0 收藏

Zookeeper3.5.7版本——Zookeeper可视化工具PrettyZoo的下载、安装与简单使用

overfit同步小助手 2023-08-22 03:04:25 0 收藏

大数据Flink（五十一）：Flink的引入和Flink的简介

随着第三代计算引擎的出现，促进了上层应用快速发展，例如各种迭代计算的性能以及对流计算和 SQL 等的支持。对于上层应用来说，就不得不想方设法去拆分算法，甚至于不得不在上层应用实现多个 Job 的串联，以完成一个完整的算法，例如迭代计算。在德语中，Flink一词表示快速和灵巧，项目采用松鼠的彩色图案作

overfit同步小助手 2023-08-22 03:03:58 0 收藏

SpringBoot集成Kafka版本不兼容导致出现错误

overfit同步小助手 2023-08-22 01:04:32 0 收藏

Python 3 使用HBase 总结

Happybase是Python通过Thrift访问HBase的库，实现起来方便、快捷。造成此类问题的原因是：使用HBase 自带ZooKeeper 分布式调度框架造成，由于我的环境是单机版本，我的大致设置是使用独立ZooKeeper 服务。如下是我hbase-site.xml 和hbase-env

overfit同步小助手 2023-08-22 01:04:17 0 收藏

【大数据工具】Kafka伪分布式、分布式安装和Kafka-manager工具安装与使用

管理多个 Kafka 集群便捷的检查 Kafka 集群状态（topic，broker，备份分布情况，分区分布情况）选择要运行的副本基于当前分区状况进行可以选择 topic 配置并创建 topic（0.8.1.1 和 0.8.2 的配置不同）删除 topic（只支持 0.8.2 以上的版本并且要在 b

overfit同步小助手 2023-08-22 00:04:12 0 收藏