大数据 - overfit.cn

Hive字符串数组json类型取某字段再列转行

hive 数组 json 列转行

overfit同步小助手 2023-10-12 23:03:26 0 收藏

Springboot中解决kafka数据重复消费问题

消费者处理比较耗时，一次poll的数据，在max.poll.interval.ms达到最大值后仍未完成，未提交offest，默认值为5分钟。Ⅱ.使用自定义配置kafkaConfig则在消费者配置部分添加。1.提高max.poll.interval.ms的值。Ⅰ.使用springboot自动配置方式。

overfit同步小助手 2023-10-12 22:03:31 0 收藏

hadoop namenode格式化错误以及启动不了解决方案

overfit同步小助手 2023-10-12 21:04:04 0 收藏

【Zookeeper】终端操作常用命令

zookeeper常用的命令

overfit同步小助手 2023-10-12 19:03:32 0 收藏

Error:JAVA_HOME is not set and could not be found

解决办法：打开hadoop/etc/hadoop目录下的文件hadoop-env.sh，将语句“export JAVA_HOME=$JAVA_HOME”修改为“export JAVA_HOME=你的java路径”，比如我是将其修改为“export JAVA_HOME=/usr/lib/jvm/jav

overfit同步小助手 2023-10-12 16:03:21 0 收藏

Hadoop 运行环境搭建（开发重点）

Hadoop 运行环境搭建

overfit同步小助手 2023-10-12 15:04:07 0 收藏

KeeperErrorCode = NoAuth for /hbase/tokenauth/keys

overfit同步小助手 2023-10-12 15:04:01 0 收藏

ZooKeeper实现分布式锁

【代码】ZooKeeper实现分布式锁。

overfit同步小助手 2023-10-12 13:04:01 0 收藏

Learning Spark: LightningFast Big Data Analysis

作者：禅与计算机程序设计艺术 1.简介Spark是一种开源快速通用大数据分析框架。它能够在超高速的数据处理能力下，轻松完成海量数据处理任务。相比于其他大数据处理系统(如Hadoop)来说，Spark具有如下优点：更快的速度：Spark可以更快地处理超高速的数据，

overfit同步小助手 2023-10-12 13:03:46 0 收藏

hadoop报错——ResourceManager无法启动

本次的遇到的问题为启动Hadoop集群后，jps查看进程中，ResourceManage节点没有启动，导致无法访问http://localhost:8088，通过查看ResourceManage的启动日志，日志中给出的错误为，笔者初步判断为yarn-site.xml文件未填写Zookeeper的端口

overfit同步小助手 2023-10-12 12:04:30 0 收藏

centos搭建hadoop伪分布式

overfit同步小助手 2023-10-12 10:04:01 0 收藏

Hive 数据仓库建设方案

随着互联网公司、大型电子商务平台等业务的不断发展，海量的数据产生，对企业经营管理产生了深远的影响。数据仓库（Data Warehouse）作为数据集成、数据分析和报表展示的关键组件，广泛应用于企业各个角落，是实现数据驱动决策的重要工具之一。Hive数据仓库就是基于Hadoop生态圈的一个开源分布式数

overfit同步小助手 2023-10-12 10:03:37 0 收藏

Hadoop -HDFS常用操作指令

【代码】Hadoop -HDFS常用操作指令。

overfit同步小助手 2023-10-12 09:03:55 0 收藏

计算机，软件工程，网络工程，大数据专业毕业设计选题有哪些（附源码获取途径）专注于Java技术领域和毕业项目实战

大家好！我是你们的毕设周学长，知道你们即将面临毕业设计的任务，所以我来给大家整理了一些可能用到的计算机毕设选题，希望能够帮到你们。当然，以上只是一些选题的示例，具体选题还需要结合自身的兴趣和实际情况进行选择。如果对选题有任何疑问，欢迎向我提问，我会尽力为大家提供帮助。祝愿大家能够找到适合自己的毕设选

overfit同步小助手 2023-10-12 08:03:09 0 收藏

深入理解 Apache Hadoop MapReduce:

作者：禅与计算机程序设计艺术 1.简介Hadoop MapReduce是一个用于分布式计算的开源系统。它通过把海量的数据集切分成小片段，然后并行处理这些片段，并生成最终结果。Hadoop MapReduce框架由Map和Reduce两个主要的组件组成：Map函数

overfit同步小助手 2023-10-12 06:03:48 0 收藏

hive解决了什么问题

也就是说，hive sql通过将sql转换成map reduce任务，使得开发人员可以通过编写sql来替代写map reduce代码，由于sql是通用的，很多数据分析人员都有此技术栈，相对写map reduce代码要容易上手很多。对于同样一个取数需求，hive sql编写方式的不同，会导致Map R

overfit同步小助手 2023-10-12 05:03:49 0 收藏

HDFS的文件块大小（重点）

对于一般硬盘来说，传输速率为100M/s，一般设置块的大小128M，因为128是2的7次方，最接近于100M。比如，块的大小是1TB，传输这个1TB的数据会非常慢，并且程序处理这个1TB的数据时，也非常的慢。不是的，它只占用文件本身大小的空间，其它空间别的文件也可以用，所以这128M的含义是HDFS

overfit同步小助手 2023-10-12 05:03:23 0 收藏

HBase客户端的批量写缓存BufferedMutator

BufferedMutator是什么？又应该如何实现呢？

overfit同步小助手 2023-10-12 04:03:42 0 收藏

ZooKeeper实战

作者：禅与计算机程序设计艺术 1.简介ZooKeeper是一个分布式协调服务，它为大型分布式系统提供高可用性、高性能的数据发布/订阅服务。其设计目标是将那些复杂且容易出错的过程从应用中分离出来，构成一个独立的服务供不同客户端进行相互协作。Zookeeper的优点

overfit同步小助手 2023-10-12 04:03:31 0 收藏

Windows上安装和配置Apache Kafka

Apache Kafka是一个开源的流式平台，用于处理实时数据流。它可以用于各种用途，包括日志聚合、事件处理、监控等。本文将向您展示如何在Windows操作系统上安装和配置Apache Kafka。

overfit同步小助手 2023-10-12 04:03:15 0 收藏