大数据 Hadoop - overfit.cn

【HDFS学习】配额与存储策略

配额与存储策略

overfit同步小助手 2023-09-10 07:03:31 0 收藏

pyspark 判断 Hive 表是否存在

【代码】pyspark 判断 Hive 表是否存在。

overfit同步小助手 2023-09-09 18:03:39 0 收藏

磁盘均衡器：HDFS Disk Balancer

hdfs disk balancer是hadoop3中引入的命令行工具，用于平衡DataNode中的数据在磁盘指甲分布不均匀问题。在这里特别注意，hdfs diskbalancer与hdfsbalancer是不同的。

overfit同步小助手 2023-09-09 12:03:26 0 收藏

Hive：聚合函数、GROUP BY、ORDER BY、LIMIT、执行顺序和JOIN、函数

HQL

overfit同步小助手 2023-09-09 11:04:28 0 收藏

【大数据实训】基于Hive的北京市天气系统分析报告(二)

而如今的天气网站信息多，面对着网上形形色色的天气网站和参差不齐的天气信息，想要获取有效的信息需要的时间太长，这给就业者根据自身的情况选择自己适合的天气系统带来了困难。IntelliJ IDEA是java语言开发的集成环境,是基于对象的快速应用程序开发工具，是当今最强大、最灵活的应用程序开发工具之一，

overfit同步小助手 2023-09-09 11:04:12 0 收藏

hive java.net.SocketTimeoutException: Read timed out 问题解

hive

overfit同步小助手 2023-09-09 10:04:03 0 收藏

python连接hive

1、下载pyhive、thrift和sasl三个包（pip install就好）2、目前遇到的问题： sasl安装问题：（1）sasl安装需要到相关网站下载whl之后找到和python适配的版本进行安装，安装网址：https://www.lfd.uci.edu/~gohlke/pyth

overfit同步小助手 2023-09-08 07:03:41 0 收藏

hive查询区分大小写

hive查询如何区分大小写

overfit同步小助手 2023-09-08 05:03:50 0 收藏

hive中时间戳与时间字符串相互转换的方法教程

时间戳是数据库常用的存放日期的形式之一，表示从 UTC 时间’1970-01-01 00:00:00’开始到现在的秒数，与常规时间格式如 ‘2018-01-01 00:00:00’可以相互转换，方法如下。

overfit同步小助手 2023-09-08 02:03:14 0 收藏

2、hive相关概念详解--架构、读写文件机制、数据存储

用户接口包括 CLI、JDBC/ODBC、WebGUI。CLI(command line interface)为shell命令行Hive中的Thrift服务器允许外部客户端通过网络与Hive进行交互，类似于JDBC或ODBC协议WebGUI是通过浏览器访问Hive元数据存储通常是存储在关系数据库如

overfit同步小助手 2023-09-07 18:04:18 0 收藏

大数据竞赛MR培训与题型

JavaHadoopMapReduce 自己定义的需要序列化和反序列化可以通过实现 Writable接口来使用。在重写map方法时，如果中间处理数据时将类型转化为Java的数据类

overfit同步小助手 2023-09-07 16:04:20 0 收藏

使用nginx-lua配置统一url自动跳转到hadoop-ha集群的active节点

配置nginx-conf，其中/root/run_shell/hadoop-status为脚本执行的路径，/tmp/hadoop-status.tmp是随便的一个文件，避免文件名冲突，注意是>不是追加>>，access_by_lua_block是lua脚本，需要要安装上面的带有lua脚本的nginx

overfit同步小助手 2023-09-07 11:04:18 0 收藏

解决Hadoop审计日志hdfs-audit.log过大的问题

新搭建的Hadoop环境没怎么用，就一个环境天天空跑，结果今天运维告诉我说有一台服务器磁盘超过80%了，真是太奇怪了，平台上就跑了几个spark测试程序，哪来的数据呢？终于发现在Hadoop的日志目录下，有一堆hdfs-audit.log日志，并且每个都有好几百M，删除之后，跟目录瞬间从81%减低到

overfit同步小助手 2023-09-07 02:04:06 0 收藏

Hive与ClickHouse的区别

overfit同步小助手 2023-09-06 14:04:36 0 收藏

大数据处理架构Hadoop

Hadoop是Apache软件基金会旗下的一个开源分布式计算平台，为用户提供了系统底层细节透明的分布式基础架构Hadoop是基于Java语言开发的，具有很好的跨平台特性，并且可以部署在廉价的计算机集群中Hadoop的核心是分布式文件系统HDFS（Hadoop Distributed File Sys

overfit同步小助手 2023-09-06 12:04:09 0 收藏

Hive on Spark环境搭建

Hive 引擎包括：默认 MR、tez、spark最底层的引擎就是MR （Mapreduce）无需配置，Hive运行自带Hive on Spark：Hive 既作为存储元数据又负责 SQL 的解析优化，语法是 HQL 语法，执行引擎变成了 Spark，Spark 负责采用 RDD 执行。Spark

overfit同步小助手 2023-09-05 12:04:04 0 收藏

Cloudera Manager报错汇总

overfit同步小助手 2023-09-05 01:04:26 0 收藏

Hadoop学习：深入解析MapReduce的大数据魔力之数据压缩（四）

压缩的优点：以减少磁盘IO、减少磁盘存储空间。压缩的缺点：增加CPU开销。

overfit同步小助手 2023-09-04 23:05:08 0 收藏

Python 3 使用Hadoop 3之MapReduce总结

MapReduce是一种分布式计算模型，由Google提出，主要用于搜索领域，解决海量数据的计算问题。MapReduce分成两个部分：Map（映射）和Reduce（归纳）。

overfit同步小助手 2023-09-04 09:04:15 0 收藏

Hive架构图

hive1

overfit同步小助手 2023-09-03 06:04:21 0 收藏