大数据 - overfit.cn

hive limit分页查询、row_number()分页查询

hive执行limit语句报错，分页失败如: （1）按照deptno分组，不排序（2）按照empno进行排序，不分组,排序列命名rownum （3）按照empno排序，同时根据deptno进行分组从原表中查询第6到第10行数据注： row_number最好写一个,不然每次都排序很耗

overfit同步小助手 2023-03-31 19:04:54 0 收藏

kafka的存储和容错机制

kafka的存储策略和容错机制

overfit同步小助手 2023-03-31 19:04:51 0 收藏

数据湖架构Hudi（五）Hudi集成Flink案例详解

overfit同步小助手 2023-03-31 19:04:45 0 收藏

黑马Hive+Spark离线数仓工业项目--项目总结

overfit同步小助手 2023-03-31 19:04:40 0 收藏

Worldclim网站CIMP6未来数据下载（校正处理好的数据）

overfit同步小助手 2023-03-31 19:04:37 0 收藏

连接HiveServer2的图形化工具SQuirrel和Dbeaver

文章目录SQuirrel SQL Client简介视频演示安装SQuirrel SQL Client启动hdfs和hiveserver2配置SQuirrel SQL Client使用SQuirrel SQL Client访问hive使用Cloudera提供的hive连接驱动进行连接Dbeaver的安

overfit同步小助手 2023-03-31 19:04:34 0 收藏

Elasticsearch：跟踪 ElasticSearch 日志摄取中的缓慢

我们想跟踪日志的摄取是否有超出我们 Elasticsearch 可接受延迟的额外延迟。使用 index.final_pipeline 索引设置来设置最终管道。 Elasticsearch 在请求或默认管道之后应用此管道，即使两者均未指定

overfit同步小助手 2023-03-31 19:04:31 0 收藏

Hive远程连接设置用户名和密码

hive设置用户名密码

overfit同步小助手 2023-03-31 19:04:28 0 收藏

Hadoop、Spark、Flink、Hive、Flume、kafka等大数据框架的角色和关系

大数据框架

overfit同步小助手 2023-03-31 19:04:24 0 收藏

SparkSQL详细的调优步骤及参数配置？

在spark-defaults.conf文件中设置spark.sql.shuffle.partitions参数，该参数控制shuffle操作的分区数，一般设置为每个executor的cores的数量，可以根据实际情况调整。在spark-defaults.conf文件中设置spark.executor

overfit同步小助手 2023-03-31 19:04:12 0 收藏

flink-sql读写hive-1.13

本文按照 flink 1.13 官网中的读写 hive 内容翻译整理，内容十分全面。

overfit同步小助手 2023-03-31 18:05:00 0 收藏

MapReduce介绍及执行过程

mapreduce基本原理及介绍

overfit同步小助手 2023-03-31 18:04:51 0 收藏

Zookeeper之ZAB协议

ZAB协议包括两种基本的模式：崩溃恢复和消息⼴播。当整个服务框架启动过程中，或者是Leader服务器出现⽹络中断、崩溃退出或重启等异常情况时， ZAB协议就会进⼊崩溃恢复模式，同时选举产⽣新的Leader服务器。当选举产⽣了新的Leader服务器，同时集群中已经有过半的机器与该Leader服务器完

overfit同步小助手 2023-03-31 18:04:45 0 收藏

minio用法

overfit同步小助手 2023-03-31 18:04:41 0 收藏

大数据监控平台-Prometheus监控Hadoop3.1.3

大数据监控平台-Prometheus监控Hadoop

overfit同步小助手 2023-03-31 18:04:37 0 收藏

HADOOP集群大数据词频统计及设计比较（完整教程）

wordcount加了combiner的代码后，运行效率提高了。

overfit同步小助手 2023-03-31 18:04:34 0 收藏

【Hadoop/Java】基于HDFS的Java Web网络云盘

基于Hadoop HDFS的Java Web网络云盘

overfit同步小助手 2023-03-31 18:04:29 0 收藏

大数据之数据仓库

数据库（Database）是按照数据结构来组织、存储和管理数据的建立在计算机存储设备上的仓库。数据库是长期储存在计算机内、有组织的、可共享的数据集合。数据库的数据指的是以一定的数据模型组织、描述和储存在一起、具有尽可能小的冗余度、较高的数据独立性和易扩展的特点并可在一定范围内为多个用户共享。常用的数

overfit同步小助手 2023-03-31 18:04:26 0 收藏

GStreamer插件实列rockchipmpp

尽管这些年arm发展取得了不少的进步，不过对于音视频的编解码仍然心有余力不足，好在芯片厂家在SOC里面提供了硬件加速能力。善于发挥出芯片的能力，才能打造出完美的应用.今天我们一起来探索一下rk3568上的为我们提供的多媒体加速能力-MPP，然后一起分析一下rk的gstreamer插件。 rockch

overfit同步小助手 2023-03-31 18:04:19 0 收藏

Elasticvue - 用于浏览器的免费开源 Elasticsearch GUI

Elasticvue 是用于 Elasticsearch 的免费开源 gui，允许你直接在浏览器中搜索和过滤集群数据

overfit同步小助手 2023-03-31 18:04:15 0 收藏