大数据 - overfit.cn

HBase 开发：使用Java操作HBase 第3关：获取数据

HBase 开发：使用Java操作HBase第3关：获取数据

overfit同步小助手 2023-11-02 17:03:44 0 收藏

基于RabbitMQ实现定时任务

rabbitmq,延时消息，延时队列，延时溢出

overfit同步小助手 2023-11-02 16:03:39 0 收藏

Hadoop中重新格式化NameNode的操作

有时候，我们需要重新格式化NameNode，这意味着清除现有的文件系统命名空间和元数据，并创建一个全新的NameNode实例。此外，重新格式化NameNode后，您可能还需要重新配置和恢复您的Hadoop集群的其他组件和作业。完成上述步骤后，您的Hadoop集群的NameNode将被重新格式化，并且

overfit同步小助手 2023-11-02 16:03:36 0 收藏

大数据学习(6)-hive底层原理Mapreduce

在Reduce阶段，不同的Map任务输出的键值对通过Shuffle机制进行分区和排序，相同key的数据value放在一个集合中。然后，对每个key对应的value集合进行归约处理，即执行Reduce函数。在Map阶段，MapTask并行度决定机制根据InputFormat数据切片机制对输入数据进行切

overfit同步小助手 2023-11-02 14:03:42 0 收藏

Linux安装Hadoop及其环境配置

使用的是Hadoop的伪分布式，因此需要配置的文件如下：hadoop-env.sh、core-site.xml、mapred-site.xml、hdfs-site.xml、yarn-site.xml。指定datanode从节点（根目录/etc/hadoop/slaves文件，每个节点配置信息占一行）

overfit同步小助手 2023-11-02 12:03:48 0 收藏

处理大规模数据时的 Spark 踩坑经验

以上是我在使用 Spark 处理大规模数据时遇到的一些问题和解决方案。在处理大规模数据时，应该注意内存溢出、网络问题、数据倾斜和 GC 停顿等问题，并根据实际情况采取相应的解决方法。

overfit同步小助手 2023-11-02 12:03:44 0 收藏

大数据-Storm流式框架（六)---Kafka介绍

默认的消息保留策略是，要么保存一段时间（7天），要么保留消息到一定大小的字节数（1GB）。1、kafka的生产者在发送消息到kafka的时候，如果消息没有指定key，则按照轮询的策略，依次将各个消息发送给不同的主题的分区。最简单的例子，为键生成一个一致性散列值，然后使用散列值对主题分区进行取模，为消

overfit同步小助手 2023-11-02 11:03:40 0 收藏

分布式 - 消息队列Kafka：Kafka分区常见问题总结

如果某个 Broker 上的领导者分区数量超过了平均值的 10%，则该 Broker 将不再接受新的领导者分区，直到其他 Broker 上的领导者分区数量增加，使得整个集群的领导者分区数量平衡。比如很多公司使用 Kafka 收集应用服务器的日志数据，这种数据都是很多的，特别是对于那种大批量机器组成的

overfit同步小助手 2023-11-02 11:03:10 0 收藏

清空所有队列和消息的RabbitMQ操作指南

有时候，我们可能需要清空RabbitMQ中的所有队列和消息，以便重新开始或进行测试。本文将介绍如何使用RabbitMQ的管理插件和AMQP协议来清空所有队列和消息。通过以上步骤，您可以使用RabbitMQ的管理插件和AMQP协议轻松地清空所有队列和消息。在RabbitMQ管理界面的"Queues"页

overfit同步小助手 2023-11-02 09:03:52 0 收藏

Rabbitmq的消息转换器

Spring会把你发送的消息序列化为字节发送给MQ，接收消息的时候，还会把字节反序列化为Java对象 ,只不过，默认情况下Spring采用的序列化方式是JDK序列化。众所周知，JDK序列化存在下列问题：数据体积过大有安全漏洞可读性差。

overfit同步小助手 2023-11-02 09:03:49 0 收藏

日前调度中发电计划的制定原则及过程

电力系统自动化日前调度中发电计划的制定原则及过程

overfit同步小助手 2023-11-02 08:03:56 0 收藏

【2023Mathorcup大数据】B题电商零售商家需求预测及库存优化问题 python代码解析

2023 年MathorCup 高校数学建模挑战赛——大数据竞赛赛道B：电商零售商家需求预测及库存优化问题电商平台存在着上千个商家，他们会将商品货物放在电商配套的仓库，电商平台会对这些货物进行统一管理。通过科学的管理手段和智能决策，大数据智能驱动的供应链可以显著降低库存成本，同时保证商品的按时履约。

overfit同步小助手 2023-11-02 08:03:20 0 收藏

大数据领域如何理解 Merge、Combine和Aggregate

例如，在MapReduce、Spark等大数据框架中，Shuffle过程中的Combiner可以将同一个节点上的中间结果组合起来，以减少数据在网络中的传输。在大数据领域，这通常涉及到将不同来源或分布式存储的数据整合在一起。例如，在SQL查询中的GROUP BY子句，以及Spark、Hadoop等大数

overfit同步小助手 2023-11-02 06:03:45 0 收藏

RabbitMQ学习（二）——Linux下安装RabbitMQ

RabbitMQ是采用 Erlang语言开发的，所以系统环境必须提供 Erlang环境，需要是安装 Erlang。默认情况下，rabbitmq没有安装web端的客户端软件，需要安装才可以生效。首先将下载好的文件上传到服务器，创建一个文件夹用来存放文件，然后切换到。：可以登录控制台、查看所有信息、并对

overfit同步小助手 2023-11-02 06:03:41 0 收藏

RabbitMQ原理(四)：MQ的可靠性

消息到达MQ以后，如果MQ不能及时保存，也会导致消息丢失，所以MQ的可靠性也非常重要。为了提升性能，默认情况下MQ的数据都是在内存存储的临时数据，重启后就会消失。为了保证数据的可靠性，必须配置数据持久化。

overfit同步小助手 2023-11-02 03:03:38 0 收藏

头歌educoder Hive自定义函数

自定义函数就是除了系统提供给你的函数，你自己去定义的函数。我们需要设置函数的作用、参数、返回值，然而Hive中支持的常见自定义函数有三种，分别是UDF、UDAF、UDTF。

overfit同步小助手 2023-11-02 03:03:31 0 收藏

大数据前置学习基础准备(非常详细!)

在大数据的学习中，前置基础是必不可少的，这一篇非常详细的基础配置文章教程就非常适合做你的入门首选！

overfit同步小助手 2023-11-02 02:03:42 0 收藏

【Hadoop HA】搭建Hadoop HA的详细教程

搭建Hadoop HA的详细教程前置工作配置host文件ssh免密登录JDK的配置ZooKeeper配置Hadoop HA配置文件core-site.xmlhdfs-site.xmlmapred-site.xmlyarn-site.xml启动与测试前置工作配置host文件在每个节点的/etc/hos

overfit同步小助手 2023-11-02 01:03:49 0 收藏

HBase开发： Java API 管理表第1关：JavaAPI获取表的列表

overfit同步小助手 2023-11-02 01:03:30 0 收藏

Kafka常用命令

LAG： LOG-END-OFFSET减去CURRENT-OFFSET的值，表示积压量。--to-latest：设置到最新处，也就是主题分区HW的位置。--to-earliest：设置到最早位移处，也就是0。--shift-by NUM：基于当前位移向前回退多少。--to-offset NUM

overfit同步小助手 2023-11-02 00:03:40 0 收藏