大数据 Hadoop - overfit.cn

[hive] 窗口函数 ROW_NUMBER()

在 Hive SQL 中，是一个用于生成行号的窗口函数。它可以为。以下是子句可选，用于指定，它将结果集划分为不同的分区。每个分区内的行都会有独立的行号计数，即行号从1开始重新计数。ORDER BY子句用于指定，它决定了如何对分区内的行进行排序。行号将根据指定的排序顺序进行分配。函数可以与其他窗口函数

overfit同步小助手 2023-11-30 19:03:50 0 收藏

深入理解Kafka3.6.0的核心概念，搭建与使用

Kafka是最初由Linkedin公司开发，是一个分布式、支持分区的（partition）、多副本的（replica），基于zookeeper协调的分布式消息系统，它的最大的特性就是可以实时的处理大量数据以满足各种需求场景：比如基于hadoop的批处理系统、低延迟的实时系统、Storm/Spark流

overfit同步小助手 2023-11-30 18:03:41 0 收藏

Hive创建分区表并插入数据

静态分区在插入数据时要指定分区名，支持load、insert两种插入方式，主要用于分区少，分区名可以确定的情况。

overfit同步小助手 2023-11-30 16:03:41 0 收藏

Linux虚拟机系统Ubuntu搭建Hadoop集群

大学生大数据实验亲手实操笔录，希望可以帮助到大家。

overfit同步小助手 2023-11-30 15:03:46 0 收藏

解决一些hive中的一些错误和解决方式

2. 初始化元数据库(derby) bin/schematool -dbType derby -initSchema。hadoop和hive的两个guava.jar版本不一致。删除低版本的那个，将高版本的复制到低版本目录下。1. hive 启动。

overfit同步小助手 2023-11-30 11:03:27 0 收藏

HDFS编程实践(Hadoop3.1.3)

Hadoop 分布式文件系统是Hadoop核心组件之一。介绍Linux操作系统中关于HDFS文件操作的常用Shell命令，利用Web界面查看和管理Hadoop文件系统，以及利用Hadoop提供的Java API进行基本的文件操作。解决File hdfs://localhost:9000/user/h

overfit同步小助手 2023-11-30 10:03:48 0 收藏

[shell,hive] 在shell脚本中将hiveSQL分离出去

将Hive SQL语句写在单独的.hql文件中，然后在shell脚本中调用这些文件来执行Hive查询。这样可以将SQL语句与shell脚本分离，使代码更加清晰和易于维护。

overfit同步小助手 2023-11-29 23:03:22 0 收藏

大数据基础设施搭建 - Hadoop

代理配置：hadoop.proxyuser.hadoop.hosts必须配，hadoop.proxyuser.hadoop.groups和hadoop.proxyuser.hadoop.users至少配置一个。hadoop.proxyuser.hadoop.hosts和hadoop.proxyuse

overfit同步小助手 2023-11-29 21:03:52 0 收藏

【简单易懂版】使用IDEA操作Hadoop（增删改查）

在IDEA中使用JAVA代码操作Hadoop完成增删改查，上传、下载基础功能

overfit同步小助手 2023-11-29 20:03:40 0 收藏

大数据毕业设计选题推荐-无线网络大数据平台-Hadoop-Spark-Hive

随着无线通信技术的快速发展和广泛应用，无线网络已经成为了现代社会信息交流的重要基础设施。为了满足日益增长的网络需求，提高无线网络的覆盖范围和服务质量变得尤为重要。然而，这需要解决许多技术挑战，其中之一就是如何规划、设计、维护和优化无线网络。在当前的无线网络大数据平台中，存在一些问题和挑战。首先，网络

overfit同步小助手 2023-11-29 17:03:45 0 收藏

【Hadoop实战】Hadoop指标系统V2分析

hadoop的指标系统V2

overfit同步小助手 2023-11-28 13:03:52 0 收藏

Hive 动态分区以及分区以及中文分区字段

hive 提供了一个动态分区功能，其可以基于查询参数的位置去推断分区的名称，从而建立分区。

overfit同步小助手 2023-11-28 13:03:42 0 收藏

Centos 虚拟机安装

安装vmware，centos7

overfit同步小助手 2023-11-28 10:03:34 0 收藏

记录一次hadoop集群上secondarynamenode无法启动的bug的解决办法

这个错误其实是由于重复格式化导致namenode和datanode的namespaceID和clusterID不一致引起的解决方法如下:解决方案：1.关闭所有服务并重启（保证Hadoop的服务被杀死）2.清理：将hadoop的根目录中的data，logs全部删除(三台节点)将 /tmp下的内容全部删

overfit同步小助手 2023-11-28 00:03:50 0 收藏

2023.11.8 hadoop 概述和发展, shell命令和服务启动命令

hdfs默认文件: https://hadoop.apache.org/docs/r3.3.4/hadoop-project-dist/hadoop-hdfs/hdfs-default.xml。hdfs的shell命令概念: 安装好hadoop环境之后，可以执行类似于Linux的shell命令对文件

overfit同步小助手 2023-11-27 22:03:33 0 收藏

Hadoop 之 Hbase 配置与使用（四）

Hbase 单机部署、伪集群、集群部署Java 连接 Hbase 集群测试

overfit同步小助手 2023-11-27 16:03:23 0 收藏

HBase高手之路4-Shell操作

describe '表名'注意：集群启动启动ZooKeeper启动hdfs启动HBASE进入shell命令行在HBase中，如果要对海量的数据进行扫描查询，尤其是全表扫描效率很低，可以使用过滤器Filter来提高查询的效率。过滤器Filter可以根据主键、列簇、列、版本号(时间戳)等条件对数据进行查

overfit同步小助手 2023-11-27 14:04:05 0 收藏

Hive复杂数据类型(array类型、map类型、struct类型)

一、array类型建表语句：create table 表名(要素1 类型，要素2 类型，要素3 array) row format delimited fileds terminated by '\t' collection items terminated by ',';

overfit同步小助手 2023-11-27 09:03:31 0 收藏

[hive]维度模型分类:星型模型,雪花模型,星座模型|范式

z=f(x,y)当给定x,y则能计算出z,当给x,y,n时，也能计算出z，此时z部分函数依赖于z,y,n。比如通过（学号，课程）推出姓名，因为可以直接通过学号退出姓名，所以：姓名部分依赖于（学号，课程）。星型模型中只有一张事实表，以及0张或多张维度表，事实与纬度表通过主键外键相关联，维度之间不存在关

overfit同步小助手 2023-11-27 01:03:57 0 收藏

hive sql 行列转换开窗函数炸裂函数

讲师表 teacher.csv课程表 course.csv分数表 score.csv员工表 emp.csv雇员表 employee.csv电影表 movie.txt订单表 order.csv创建数据库和数据表行列转换列转行行专列

overfit同步小助手 2023-11-26 21:03:53 0 收藏