大数据 - overfit.cn

ClickHouse Keeper: 一个用 C++ 编写的 ZooKeeper 替代品

介绍 ClickHouse Keeper 的特点和优势，它是 ZooKeeper 资源的高效开源替代品。

overfit同步小助手 2023-12-15 13:03:24 0 收藏

HBase的RowKey详解、RowKey设计原则和RowKey优化方法

overfit同步小助手 2023-12-15 12:03:51 0 收藏

hiveSql调优

| 前是map阶段执行，后的reduce阶段执行1、执行 from，进行表的查找与加载，注意要join的表也要加载进来（MapJoin除外）；2、执行 where，sql 语句中 left join 写在 where 之前的，但是实际执行先执行 where 操作，因为 Hive 会对语句进行优化，如

overfit同步小助手 2023-12-15 11:03:50 0 收藏

Zookeeper内存调整方法

将以下参数拷贝到/usr/local/service/zookeeper/bin/zkServer.sh 中。注意：带kerberos的环境需要格外关注认证问题。

overfit同步小助手 2023-12-15 10:03:50 0 收藏

SpringBoot项目整合Redis，Rabbitmq发送、消费、存储邮件

SpringBoot项目整合Redis,Rabbitmq发送、消费、存储邮件

overfit同步小助手 2023-12-15 10:03:13 0 收藏

启动Dubbo项目注册Zookeeper时提示zookeeper not connected异常原理解析

可见启动Dubbo项目注册Zookeeper时提示zookeeper not connected异常，是因为没有在配置里设置连接超时，而是使用了默认的5秒，导致5秒内没有成功连接，就出现连接异常而无法成功连接，当调长时间后，就正常连接成功了，同时也说明了，这次本地连接zookeeper集群的时间超过

overfit同步小助手 2023-12-15 08:03:40 0 收藏

hadoop完全分布式搭建

Hadoop完全分布式搭建需要按照以下步骤进行：安装虚拟机：首先需要安装虚拟机软件，例如VMware等，然后在虚拟机软件中创建新的虚拟机，设置虚拟机的操作系统、内存、处理器等参数。配置网络：在虚拟机中配置网络，使得虚拟机可以与外部网络进行通信。安装Hadoop：在虚拟机中安装Hadoop，并配置相关

overfit同步小助手 2023-12-15 08:03:22 0 收藏

启动hive时去掉没有用的日志信息

log4j.rootLogger：这个是设置日志级别的，当设置成不同的日志级别时，展示的日志输出是不一样的。当日志级别为WARN时，打印的还是不少日志信息。

overfit同步小助手 2023-12-15 07:03:43 0 收藏

kafka2.x常用命令：创建topic，查看topic列表、分区、副本详情，删除topic，测试topic发送与消费

kafka2.x常用创建topic，查看topic列表、分区、副本详情，删除topic，测试topic发送与消费指令

overfit同步小助手 2023-12-15 06:03:45 0 收藏

我的数据仓库与数据挖掘期末大作业重置版

这是之前已经完成的任务，原本是我的数据仓库与数据挖掘课程的作业。里面都是比较入门的东西，没什么难度。之前学这门课的时候，上了一整个学期的课，几乎都在讲解数学原理。作为数学科目挂了四门的工科蠢材，我整个学期都听得云里雾里，到了学期末的时候突然告诉我们说期末大作业要用 Python 来写。只好赶鸭子上架

overfit同步小助手 2023-12-15 06:03:28 0 收藏

37 | Kafka & ZMQ：自动化交易流水线

这节我们分析了现代化软件工程领域中的中间件系统，以及其中的主要应用——消息队列。我们讲解了最基础的消息队列的模式，包括点对点模型、发布者订阅者模型，和一些其他消息队列自己支持的模型。在真实的项目设计中，我们要根据自己的产品需求，来选择使用不同的模型；同时也要在编程实践中，加深对不同技能点的了解，对系

overfit同步小助手 2023-12-15 04:03:55 0 收藏

E往无前｜腾讯云大数据ES索引原理剖析及写入性能优化最佳实践

本文经过大量案例总结和踩坑复盘，归纳整理了Elastisearch集群在写入性能优化方面一些常用的优化技巧和避坑指南。

overfit同步小助手 2023-12-15 04:03:42 0 收藏

rabbitmq 交换机相关实例代码

定义交换机和队列,其中路由可以根据规则匹配，*表示匹配一个任意字符，#表示一个或多个。定义扇形交换机发送端，发送时，第二个参数是路由，不需要设置。当点击发送后，以上三个方法都会接受到消息，不需要路由。定义扇形交换机和队列。定义主题交换机发送端。定义扇形交换机接收端。定义主题交换机接收端。

overfit同步小助手 2023-12-15 04:03:20 0 收藏

MapReduce词频统计（一）

在Map阶段，文件wordfile1.txt和文件wordfile2.txt中的文本数据被读入，以<key,value>的形式提交给Map函数进行处理，其中，key是当前读取到的行的地址偏移量，value是当前读取到的行的内容。<key,value>提交给Map函数以后，就可以运行我们自定义的Map

overfit同步小助手 2023-12-15 04:03:17 0 收藏

2023_Spark_实验二十二：Zookeeper的集群安装

在/opt/soft_installed/zookeeper-3.4.5/zkdata目录下创建一个myid的空文件。配置/opt/soft_installed/zookeeper-3.4.5/conf/zoo.cfg文件。在所有节点上都需要执行启动命令，进入到zookeeper安装目录下，执行：b

overfit同步小助手 2023-12-15 02:03:29 0 收藏

大数据技术原理与应用概念、存储、处理、分析和应用（林子雨）——第三章分布式文件系统HDFS

林子雨主编的大数据技术原理与应用第三章学习记录。

overfit同步小助手 2023-12-15 01:03:49 0 收藏

大数据-之LibrA数据库系统告警处理（ALM-12042 关键文件配置异常）

检查“/etc/fstab”文件中配置的分区，是否在“/proc/mounts”中能找到。检查在“fstab”中配置的swap分区，是否和“/proc/swaps”一一对应。系统每隔一个小时检查一次系统中关键的配置是否正确，如果不正常，则上报故障告警。查看是否存在以下几种情况，如果是，则说明该配置文

overfit同步小助手 2023-12-15 00:03:49 0 收藏

消息中间件（RocketMQ、RabbitMQ、ActiveMQ、Redis、kafka、ZeroMQ）以及之间的区别

面向消息的系统（消息中间件）是在分布式系统中完成消息的发送和接收的基础软件。消息中间件也可以称消息队列，是指用高效可靠的消息传递机制进行与平台无关的数据交流，并基于数据通信来进行分布式系统的集成。通过提供消息传递和消息队列模型，可以在分布式环境下扩展进程的通信。消息队列已经逐渐成为企业IT系统内部通

overfit同步小助手 2023-12-15 00:03:22 0 收藏

hive 问题解决 Class path contains multiple SLF4J bindings

hive输入命令时出现日志冲突提示（问题不复杂，是个warn，强迫症解决，做项目经常遇到，项目里是处理maven。这里处理方法思路类似。这里选简单的删除日志冲突包，删除hive目录下的包。一种是屏蔽日志冲突包，一种删除多余包。日志冲突提示已消失。

overfit同步小助手 2023-12-15 00:03:15 0 收藏

大数据学习(23)-hive on mapreduce对比hive on spark

需要注意的是，随着 Apache Spark 的普及和发展，Hive on Spark 逐渐成为主流的 Hive 运行环境。许多公司和组织已经将 Spark 作为其默认的计算引擎，并逐渐将 Hive 从 MapReduce 迁移到 Spark 上。Hive on Spark 和 Hive on Ma

overfit同步小助手 2023-12-14 22:03:45 0 收藏