大数据 - overfit.cn

zookeeper配置

3.修改/创建zookeeper配置文件1)在zookeeper目录下新建data目录和logs目录 mkdir data logs在data中新建myid文件，在其中填入数字1（对应zoo.cfg文件的server编号）2)由于conf目录下没有zoo.cfg文件，所以复制zoo_sample.c

overfit同步小助手 2023-06-23 12:04:17 0 收藏

kettle桌面版和docker版的安装

一键连接kettle各个环境版本的安装

overfit同步小助手 2023-06-23 10:04:19 0 收藏

Hadoop基础之《（7）—Hadoop三种运行模式》

在wcinput下建立一个word.txt，输入一些单词。数据存储在HDFS，同时多台服务器工作。单机运行就是直接执行hadoop命令。一、hadoop有三种运行模式。数据存储在linux本地，不用。数据存储在HDFS，测试用。1、例子-统计单词数量。

overfit同步小助手 2023-06-23 07:04:27 0 收藏

基于hadoop大数据的音乐推荐系统

overfit同步小助手 2023-06-23 06:03:56 0 收藏

SAP 发出商品业务配置

（在正常业务中，即出库时计算成本，VAX和VAY借贷方的科目相同，为“主营业务成本”，这样在产生会计凭证时，借：主营业务成本，贷：库存商品）帐码：即我们定义的Z01，ERL是收入，ERB为销售扣减，ERB分配给的是返利的条件类型，主要是为了财务统计方便。该业务在系统内的实现方式，为保证成本与收入的配

overfit同步小助手 2023-06-23 05:04:20 0 收藏

展望Flink各版本及新特性

在流式 SQL 查询中，一个最经常使用的是定义时间窗口。Flink 1.13 中引入了一种新的定义窗口的方式：通过 Table-valued 函数。这一方式不仅有更强的表达能力（允许用户定义新的窗口类型），并且与 SQL 标准更加一致。Flink 1.13 在新的语法中支持 TUMBLE 和 HOP

overfit同步小助手 2023-06-23 04:03:59 0 收藏

iceberg的java api使用

【前言】了解一个组件的最好方式是先使用该组件，今天我们就来聊聊如何通过java api对iceberg进行操作。为什么是选择api进行介绍，而不是更通用的flink、spark、hive等。一方面是觉得flink、spark使用iceberg的介绍网上已经有很多，官网的介绍也比较清晰，而java a

overfit同步小助手 2023-06-23 01:04:20 0 收藏

5 大分区管理器 - 最好的硬盘分区软件

分区是一个计算机术语，指的是在硬盘上创建多个区域，以允许操作系统和分区管理器软件有效且单独地管理每个区域中的信息。拥有大量计算机使用历史的人最有可能受益于多个分区。在硬盘中进行分区的好处之一是可以更轻松地将操作系统和程序文件与用户文件分开。分区管理器有助于使分区更易于管理。使用分区管理器，可以创建、

overfit同步小助手 2023-06-22 22:04:05 0 收藏

RabbitMQ的ack和nack机制

当生产者的发送消息到exchange，并路由到对应的队列后，MQ主动push消息到channel，由应用线程从channel中获取消息。主动ACK是指在MQ主动push到channel中后，channel立马自动的给到MQ ack响应，然后MQ删除消息。MQ使用的问题点：1、当消费者宕机的情况下，会

overfit同步小助手 2023-06-22 22:03:54 0 收藏

第3.2章：StarRocks数据导入--Stream Load

一、环境准备Stream Load可以说是StarRocks最为核心的导入方式，StarRocks的主要导入方式例如Routine Load、Flink Connector、DataX StarRocksWriter等，底层实现都是基于Stream Load的思想，所以我们着重介绍。Stream L

overfit同步小助手 2023-06-22 21:04:33 0 收藏

flink(二)

flink

overfit同步小助手 2023-06-22 21:04:01 0 收藏

图数据库选型对比

常见的图数据库包括：JanusGraph、Neo4j、Dgraph、NebulaGraph、HugeGraph、OrientDB、ArangoDB、TigerGraph等。下面列举，主流和推荐的几款图数据库的简介，应用场景和架构。

overfit同步小助手 2023-06-22 20:04:08 0 收藏

助力工业物联网，工业大数据之工业大数据之油站维度设计【十四】

ciss_base_customer：客户信息表【客户id、客户省份名称、所属公司ID】：构建油站维度表，得到油站id、油站名称、油站所属的地理区域、所属公司、油站状态等。eos_dict_entry：字典状态明细表，记录所有具体的状态或者类别信息。ciss_base_baseinfo：客户公司信息

overfit同步小助手 2023-06-22 18:04:29 0 收藏

Zookeeper 伪分布式集群搭建详细步骤

进入 zookeeper 集群中任意一个节点的 bin 目录下，启动一个客户端，接入已经启动好的。在同一台服务器上，部署一个 3 个 ZooKeeper 节点组成的集群，这样的集群叫伪分布式集。myid 文件的内容是节点在集群中的编号，zookeeper1 节点的编号就写成 1，后边的。群，而如果集

overfit同步小助手 2023-06-22 17:04:22 0 收藏

数据存储与容灾（第2版）主编鲁先志武春岭综合训练答案

数据存储与容灾第二版课后习题答案。除了思考题答案，其他都是绝对正确的。思考题答案是自己写的或者参考互联网上的答案，仅供参考。如有异议请在评论区提出

overfit同步小助手 2023-06-22 17:04:07 0 收藏

精选 100 种最佳 AI 工具大盘点

它非常适合想要快速轻松地制作引人入胜的视频的内容创作者和社交媒体影响者。它非常适合想要快速轻松地创建高质量内容的内容创建者和营销人员。Buzzy：Buzzy 是一个无代码平台，可将您的想法转化为 Figma 设计和可运行的应用程序。SlidesAl：SlidesAl 是一种工具，可以帮助您在几秒钟内

overfit同步小助手 2023-06-22 16:04:37 0 收藏

使用Eclipse创建MapReduce工程

1.实训目标（1）掌握以Exlipse创建MapReduce工程2.实训环境（1）使用CentOS的Linux操作系统搭建的3个节点（2）使用Eclipse软件作为编程软件（3）使用插件hadoop-eclipse-plugin-2.x.x.jar3.实训内容（1）配置MapReduce环境（2）新

overfit同步小助手 2023-06-22 15:04:13 0 收藏

完全分布式HBase安装好后没有Hmaster问题解决

应该是配置文件出了问题，我的hadoop版本是3.1.3，hbase版本是2.2.4，是兼容的。但是，发现启动后，访问不了页面，jps查看发现没有hmaster进程，步骤没错。3.regionservers：(自己hadoop集群的主机名称)五、HBase 远程发送到其他集群（或使用scp命令分发）

overfit同步小助手 2023-06-22 14:04:19 0 收藏

大数据高频面试题

说下Spark中的Transform和Action，为什么Spark要把操作分为Transform和Action?Hive的join操作原理，leftjoin、right join、inner join、outer join的异同?在删除HBase中的一个数据的时候，它什么时候真正的进行删除呢?Hi

overfit同步小助手 2023-06-22 13:03:57 0 收藏

Spark一些个人总结

随着大数据技术的发展，一些更加优秀的组件被提了出来，比如现在最常用的Spark组件，基于RDD原理在大数据处理中占据了越来越重要的作用。在此我们探索了Spark的原理，以及其在大数据开发中的重要作用。...

overfit同步小助手 2023-06-22 10:04:22 0 收藏