大数据 - overfit.cn

go语言操作rabbitmq

【代码】go语言操作rabbitmq。

overfit同步小助手 2023-12-31 12:04:03 0 收藏

【Hadoop精讲】HDFS详解

Hadoop精讲、HDFS详解、副本放置策略、元数据持久化

overfit同步小助手 2023-12-31 12:03:52 0 收藏

Logstash输入Kafka输出Es配置

Logstash是一个开源的数据收集引擎，具有实时管道功能。它可以从各种数据源中动态地统一和标准化数据，并将其发送到你选择的目的地。Logstash的早期目标主要是用于收集日志，但现在的功能已经远远超出这个范围。任何事件类型都可以通过Logstash进行分析，通过输入、过滤器和输出插件进行转换。Lo

overfit同步小助手 2023-12-31 10:03:51 0 收藏

Linux环境下安装 Nacos、Redis、RabbitMQ、Nginx

Linux服务器：Nacos、Redis、RabbitMQ、Nginx，安装。

overfit同步小助手 2023-12-31 10:03:15 0 收藏

【头歌实训】Spark 完全分布式的安装和部署

把 evassh 服务器的 /usr/local 目录下的 spark 安装包通过 SCP 命令上传到 master 虚拟服务器的 /usr/local 目录下。Hadoop 集群在启动脚本时，会去启动各个节点，此过程是通过 SSH 去连接的，为了避免启动过程输入密码，需要配置免密登录。把 mast

overfit同步小助手 2023-12-31 09:03:23 0 收藏

【大数据存储与处理】实验一 HBase 的基本操作

本实验介绍了Hbase的使用环境，要求掌握Hbase创建数据库表及删除数据库表，掌握Hbase对数据库表数据的增、删、改、查。注意区分hbaseshell命令和linux命令。

overfit同步小助手 2023-12-31 08:03:31 0 收藏

Flink 输出至 Elasticsearch

Flink 输出至 Elasticsearch。

overfit同步小助手 2023-12-31 08:03:19 0 收藏

【hadoop】解决浏览器不能访问Hadoop的50070、8088等端口？！

overfit同步小助手 2023-12-31 07:03:15 0 收藏

解决RabbitMq登录时报出Not management user(Login failed)错误

翻译成中文即为非管理用户非管理用户无法登录管理控制台因而报出这个错误。虽然我登录的是guest用户因为账号guest具有所有的操作权限当然可以登录管理控制台。但我在上文中修改guest用户角色为空导致现在无法登录。使用如下命令查看guest权限你会看到guest权限为空因为我在上文点击Add Use

overfit同步小助手 2023-12-31 06:03:52 0 收藏

SqlServer数据库定时清理数据，仅保留指定时间段内的数据——高效处理大数据

在步骤1中，我们创建了一个名为"CleanExpiredData"的定时任务，并添加了一个步骤。假设我们有一个名为"Data"的表，其中包含时间戳字段"Timestamp"，我们希望只保留最近30天内的数据。本文介绍了如何利用SqlServer的定时任务和T-SQL语句来实现定期清理数据库中过期数据

overfit同步小助手 2023-12-31 06:03:48 0 收藏

windows 安装部署pinpoint-2.3.3，实现springboot项目的链路追踪

javaagent:D:\pinpoint\pinpoint-agent-2.3.3\pinpoint-agent-2.3.3\pinpoint-bootstrap-2.3.3.jar #设置\pinpoint-agent-2.3.3目录下的pinpoint-bootstrap-2.3.3.jar

overfit同步小助手 2023-12-31 04:03:48 0 收藏

基于 Flink 的典型 ETL 场景实现方案

数仓架构演变，三种架构：lambda架构、kappa架构、实时olap架构。维表join，双流Join。

overfit同步小助手 2023-12-31 04:03:20 0 收藏

Kafka核心逻辑介绍 | 京东云技术团队

Kafka是最初由Linkedin公司开发，是一个分布式、支持分区的（partition）、多副本的（replica）分布式消息系统（，新增内部主体@metadata存储元数据信息），它的最大的特性就是可以实时的处理大量数据以满足各种需求场景：比如基于hadoop的批处理系统、低延迟的实时系统、st

overfit同步小助手 2023-12-31 02:03:47 0 收藏

3、Kafka 线上集群部署方案怎么做？

带宽是 1Gbps，即每秒处理 1Gb 的数据，假设每台 Kafka 服务器都是安装在专属的机器上，也就是说每台 Kafka 机器上没有混布其他服务，毕竟真实环境中不建议这么做。超过 70% 的阈值就有网络丢包的可能性了，故 70% 的设定是一个比较合理的值，也就是说单台 Kafka 服务器最多也就

overfit同步小助手 2023-12-31 02:03:38 0 收藏

【星环云课堂大数据实验】InceptorSQL使用方法

1. 批处理；2.统计分析；3. 图计算和图检索；4.交互式统计分析外部表（或简称为外表）和托管表（内表）。TEXT表、ORC表、CSV表和Holodesk表。分区表和非分区表。分桶表和非分桶表。托管表（内表）CREATE TABLE 默认创建托管表。Inceptor对托管表有所有权——用 DROP

overfit同步小助手 2023-12-31 02:03:19 0 收藏

万字解决Flink|Spark|Hive 数据倾斜

不管再出现分布式计算框架出现数据倾斜问题解决思路如下：很多数据倾斜的问题，都可以用和平台无关的方式解决，比如更好的数据预处理，异常值的过滤等。因此，解决数据倾斜的重点在于对数据设计和业务的理解，这两个搞清楚了，数据倾斜就解决了大部分了。关注这几个方面：数据预处理。解决热点数据：分而治之(第一次打散计

overfit同步小助手 2023-12-30 23:03:34 0 收藏

Flink+Kafka消费

分布式处理引擎Flink使用至少一个【job】调度和至少一个【task】实现分布式处理有界：就是指flink【消费指定范围内】的数据。例如我定义某个作业间隔时间为0.5秒，则flink已0.5秒为界，进行数据处理。有界数据用在离线数据的处理场景较多无界：就是指flink始终【监听数据源】里的数据，获

overfit同步小助手 2023-12-30 22:03:37 0 收藏

【Hive】——函数案例

hive 函数案例

overfit同步小助手 2023-12-30 20:03:49 0 收藏

[hive] 在hive sql中定义变量

变量可以用于存储和引用常量或表达式的值，以便在查询中重复使用。Hive中的变量是会话级别的，即它们在会话结束后会被重置。在Hive SQL中，可以使用。

overfit同步小助手 2023-12-30 20:03:45 0 收藏

2023.11.16-hive sql高阶函数lateral view,与行转列,列转行

hive函数主要功能是将原本汇总在一条（行）的数据拆分成多条（行）成虚拟表，再与原表进行笛卡尔积，从而得到明细表。配合UDTF函数使用，一般情况下经常与explode函数搭配，explode的操作对象（列值）是ARRAY或者MAP,可以通过split函数将 String 类型的列值转成ARRAY来处

overfit同步小助手 2023-12-30 20:03:15 0 收藏