大数据 - overfit.cn

Zookeeper入门详解

zookeeper详解

overfit同步小助手 2024-01-29 08:03:50 0 收藏

《PySpark大数据分析实战》-05.PySpark库介绍

大家好！今天为大家分享的是《PySpark大数据分析实战》第1章第5节的内容：PySpark库介绍。

overfit同步小助手 2024-01-29 08:03:47 0 收藏

flink双流ioin的大状态如何解决和调优

Flink 中的双流ioin操作（双流连接）通常涉及大状态的处理，这可能导致一些性能和状态管理的挑战。以下是解决和调优 Flink 中双流ioin。

overfit同步小助手 2024-01-29 08:03:31 0 收藏

《2023大数据产业年度创新技术突破》榜重磅发布丨第六届金猿奖

‍第六届年度金猿榜单/奖项“第六届年度金猿季策划活动——2023大数据产业创新技术突破榜单/奖项”由金猿X数据猿X上海大数据联盟共同推出。大数据产业创新服务媒体——聚焦数据· 改变商业第六届 “年度金猿季大型主题策划活动”由金猿、数据猿、上海大数据联盟共同组成的金猿组委会发起，在继续深耕大数据产业，

overfit同步小助手 2024-01-29 08:03:14 0 收藏

RabbitMQ——交换机

在 RabbitMQ 中，交换机主要用来将生产者生产出来的消息，传送到对应的频道中，即交换机是一个消息传送的媒介，其英文被称为 exchange。交换机在 RabbitMQ 中起着承上启下的作用。在实际应用中我们只需要定义好 Exchange 的路由策略，而生产者则不需要关心消息会发送到哪个 Que

overfit同步小助手 2024-01-29 07:03:55 0 收藏

信息管理毕设分享(含算法) 基于大数据的b站数据分析

本文主要运用Python的第三方库SnowNLP对弹幕内容进行情感分析，使用方法很简单，计算出的情感score表示语义积极的概率，越接近0情感表现越消极，越接近1情感表现越积极。从数据可视化中可以看到，播放量排名前三的分别是生活类、动画类、鬼畜类，让人诧异的是以动漫起家的B站，播放量最多的视频分类竟

overfit同步小助手 2024-01-29 07:03:45 0 收藏

flink 从kafka读取数据报错

这个依赖,还加了多余的kafkaclient依赖;

overfit同步小助手 2024-01-29 07:03:24 0 收藏

流式湖仓增强，Hologres + Flink构建企业级实时数仓

阿里云实时数仓Hologres研发负责人姜伟华现场分享Hologres+Flink构建的企业级实时数仓，实现全链路的数据实时计算、实时写入、实时更新、实时查询。同时，随着流式湖仓的兴起，Hologres除了支持Delta、Hudi等通用湖格式。

overfit同步小助手 2024-01-29 06:03:16 0 收藏

【大数据进阶第三阶段之Hive学习笔记】Hive安装

安装hadoop 以及 zookeeper、mysql《zookeeper的安装与配置》《Linux环境配置MySQL》

overfit同步小助手 2024-01-29 05:03:16 0 收藏

大数据开发---阿里云ECS上搭建Hadoop伪分布式环境（下篇）

" 2024-01-06 15:31:34,348 INFO common.Storage: Storage directory /opt/hadoop-3.3.1/etc/hadoop/tmp/dfs/name has been successfully formatted."---->表明。ha

overfit同步小助手 2024-01-29 04:03:52 0 收藏

集成Kafka：SpringBoot与Kafka的集成

1.背景介绍1. 背景介绍Apache Kafka 是一个分布式流处理平台，用于构建实时数据流管道和流处理应用程序。它可以处理高吞吐量的数据，并提供了一种可靠的、低延迟的方式来存储和处理数据。Spring Boot 是一个用于构建微服务应用程序的框架，它提供了许多预建的功能，以简化开发过程。在现代应

overfit同步小助手 2024-01-29 04:03:45 0 收藏

nginx+rsyslog+kafka+clickhouse+grafana 实现nginx 网关监控

上面都配置完了之后可以先验证下，保证数据最终到ck，如果有问题，需要再每个节点调试，比如先调试nginx->rsyslog ，可以先不配置kafka 输出，配置为console或者文件输出都可以，具体这里就不写了。这里做了一个类型转换，因为nginx，request-time 单位是s，我想最终呈现

overfit同步小助手 2024-01-29 04:03:40 0 收藏

hbase shell行键过滤正则匹配

在实际运维生产环境的过程中，经常遇到需要过滤rowkey包含部分字符的场景。以下列出可行的几种操作方式。

overfit同步小助手 2024-01-29 04:03:28 0 收藏

私有部署ELK，搭建自己的日志中心（六）-- 引入kafka对采集日志进行削峰填谷

首先，要说明一点，elk日志中心，是可以缺少kafka组件的。其次，如果是研发环境下，机器资源紧张的情况下，也是可不部署kafka。最后，因为kafka的部署是可以独立的，所以本文将另行部署，不和elk一起。

overfit同步小助手 2024-01-29 03:03:46 0 收藏

大数据-hive基本语法整理

hive基本语法一、hive建表语句create external table if not exists ods_base_org_info( id string comment '主键', org_code string comment

overfit同步小助手 2024-01-29 03:03:35 0 收藏

Hive实战：词频统计

通过这一系列的操作，我们深入学习了Hive的外部表创建、数据加载、查询、视图创建以及统计分析的操作。字段的内容按照空格分割成多个单词，并生成一个多行的结果集，每行包含一个单词。函数则将这个分割后的数组转换为多行记录，即每一行对应原字符串中的一个单词。统计每个单词分组的数量，结果将展示每个单词及其在原

overfit同步小助手 2024-01-29 03:03:23 0 收藏

Flink状态编程之按键分区状态

按键分区状态（Keyed State）顾名思义，是任务按照键（key）来访问和维护的状态。它的特点非常鲜明，就是以 key 为作用范围进行隔离。在进行按键分区之后，具有相同键的所有数据，都会分配到同一个并行子任务中；所以如果当前任务定义了状态，Flink 就会在当前并行子任务实例中，为每个键值维护一

overfit同步小助手 2024-01-29 02:03:35 0 收藏

大数据平台环境搭建---- Hbase组件配置

进入Hadoop安装目录的conf目录，将配置文件core-site.xml和hdfs-site.xml复制到HBase安装目录下的conf目录，用于HBase启动时读取Hadoop的核心配置信息和HDFS配置信息。在HBase安装目录下的conf目录，执行“vi backup-masters”命令

overfit同步小助手 2024-01-29 02:03:32 0 收藏

HiveSql中的分区分桶详解

;实际开发中, 如果数据量比较大的情况下,可以考虑采用多级分区的思路来解决, 多级分区一般用时间来分区, 可以是: 年, 月, 日...之前我们已经实现了静态分区, 即: 手动指定分区字段和分区字段值, 如果分区过多, 每次写分区字段值比较繁琐, 且有可能写错.计算绝对值的: 10。

overfit同步小助手 2024-01-29 02:03:21 0 收藏

8-Hive原理与技术

题目3：Hive分区字段不能与已存在字段重复，且分区字段是一个虚拟的字段，它不存放任何数据，该数据来源于装载分区表时所指定的数据文件。题目2：Sqoop是关系型数据库与Hadoop之间的数据桥梁，这个桥梁的重要组件是Sqoop连接器。题目3：Hive最重视的性能是可测量性、延展性、对于输入格式的宽松

overfit同步小助手 2024-01-29 01:03:54 0 收藏