大数据 - overfit.cn

Python 简单使用 RabbitMQ

执行后我们进入rabbitMQ网页端后台查看pythone.test 队列已经被创建。并且我们执行了三次，此处产生3条数据未被消费，还被压在队列中。我们执行3次product方法，生产3条数据到队列。再查看rabbitMQ网页后台，发现消息已经被正常消费。再执行consumer方法，对队列内数据进

overfit同步小助手 2024-05-30 10:03:17 0 收藏

大数据最全《离线和实时大数据开发实战》（一）构建大数据开发知识体系图谱

比如离线的主要数据处理技术是基于 Hadoop MapReduce 的 Hive ，而 Hive 是一种 SQL on Hadoop 的技术，但类似的 SQL on Hadoop 技术和框架还有很多，比如 Cloudera 的 Impala ，Apache Druid 以及 Presto、Shark

overfit同步小助手 2024-05-30 09:03:55 0 收藏

深入学习Kafka数据消费大致流程（如何创建并使用Kafka消费者）

我还通过一些渠道整理了一些大厂真实面试主要有：蚂蚁金服、拼多多、阿里云、百度、唯品会、携程、丰巢科技、乐信、软通动力、OPPO、银盛支付、中国平安等初，中级，高级Java面试题集合，附带超详细答案，希望能帮助到大家。还有专门针对JVM、SPringBoot、SpringCloud、数据库、Linux

overfit同步小助手 2024-05-30 09:03:44 0 收藏

SpringBoot集成多个RabbitMq（多个MQ链接）

##2023年12月16日 20:25:36 项目中使用RabbitMQ作为应用间信息互通，本次梳理下关于MQ的使用。1、引入依赖<dependencies> <dependency>

overfit同步小助手 2024-05-30 09:03:24 0 收藏

【大数据】Hadoop 2.X和1.X升级优化对比

一文详解hadoop 2.X版本对于1.X版本做出的优化和升级

overfit同步小助手 2024-05-30 08:03:44 0 收藏

实时大数据处理：Storm、Kafka、Flume和Flink的结合

以下是关于如何使用Storm、Kafka、Flume和Flink这些实时计算框架的一些基本信息：- Storm是一个开源的分布式实时计算系统。它可以处理大量的数据流，并且具有高可靠性和可扩展性。- Storm的应用包括实时计算，数据被一条一条地计算，实时收集、实时计算、实时展示。- Kafka是一个

overfit同步小助手 2024-05-30 08:03:19 0 收藏

Hbase基础操作Demo（Java版）

HBase Java基础操作样例

overfit同步小助手 2024-05-30 07:03:50 0 收藏

go语言并发实战——日志收集系统(三) 利用sarama包连接KafKa实现消息的生产与消费

由于1.19版本后添加了ztcd压缩算法，需要用到cgo，这里我们为了方便考虑选择下载。不过这个不能实现直接的消费，后续我们会对这个进行补充，这里制作介绍。今天我们所时机的内容需要用到go语言的第三方包。了,但是博主在做的时候发现，这样会直接清除掉。命令来安装第三方包，我们要使用/，所以这里我们不能

overfit同步小助手 2024-05-30 06:03:31 0 收藏

Flink CDC 原理

Flink CDC（Change Data Capture）是 Apache Flink 提供的一个变更数据捕获工具集。它可以监控数据库的变更，并将这些变更实时地以流的形式提供给下游系统，这些变更包括插入、更新和删除操作。Flink CDC 适用于需要实时数据管道和数据流处理的场景，如实时数据分析、

overfit同步小助手 2024-05-30 06:03:28 0 收藏

Kafka指定分区消费及consumer-id,client-id相关概念解析_kafka clientid

在最近使用Kafka过程中，发现使用@KafkaListener指定分区消费时（指定了所有分区），如果服务是多节点，会出现重复消费的现象，即两个服务节点中的消费者均会消费到相同信息，这与消费者组中只有一个消费者可以消费到消息的规则不相符，于是花时间找了找原因Consumer 机制小龙虾你抓不到(上面

overfit同步小助手 2024-05-30 06:03:19 0 收藏

实验四 Spark Streaming编程初级实践

数据流：数据流通常被视为一个随时间延续而无限增长的动态数据集合，是一组顺序、大量、快速、连续到达的数据序列。通过对流数据处理，可以进行卫星云图监测、股市走向分析、网络攻击判断、传感器实时信号分析。

overfit同步小助手 2024-05-30 05:04:01 0 收藏

RabbitMQ介绍+使用手册

RabbitMQ在window下的使用方法。

overfit同步小助手 2024-05-30 05:03:50 0 收藏

大数据毕设分享(含算法) 机器学习二手房价格预测及可视化系统（源码+论文）

通过整个项目的实践，我们亲身体会了数据挖掘的那张路线图，预处理、分析之后发现问题（Knowledge），再进行新的处理，再重新分析挖掘，做评估，然后发现新的问题，再从头开始，在这几个过程的循环往复中完成了整个项目。

overfit同步小助手 2024-05-30 04:03:52 0 收藏

Flink时间语义 | 大数据技术

Flink中，时间通常分为三类EventTime:事件(数据)时间,是事件/数据真真正正发生时/产生时的时间IngestionTime:摄入时间,是事件/数据到达流处理系统的时间ProcessingTime:处理时间,是事件/数据被处理/计算时的系统的时间Flink的三种时间语义中，处理时间和摄入时

overfit同步小助手 2024-05-30 04:03:49 0 收藏

kafka监控配置和告警配置

Kafka的监控配置和告警配置是确保Kafka集群稳定运行的关键部分。以下是一些关于Kafka监控配置和告警配置的建议：一、Kafka监控配置二、Kafka告警配置关于Kafka的监控配置和告警配置的详细操作步骤如下：修改Kafka配置文件：还可以设置JMX（Java Management Exte

overfit同步小助手 2024-05-30 03:03:54 0 收藏

hadoop报错：HADOOP_HOME and hadoop.home.dir are unset. 解决方法

1.下载apache-hadoop-3.1.0-winutils-master。

overfit同步小助手 2024-05-30 03:03:49 0 收藏

Hadoop——HDFS文件系统的Java API操作（上传、下载、查看、删除、创建文件）详细教学

分享一套我整理的面试干货，这份文档结合了我多年的面试官经验，站在面试官的角度来告诉你，面试官提的那些问题他最想听到你给他的回答是什么，分享出来帮助那些对前途感到迷茫的朋友。

overfit同步小助手 2024-05-30 02:03:38 0 收藏

记录一次脏数据导致flink任务失败的处理

这个报错，我记得以前有字符长度不够时，日志会记录是哪个字段长度不够导致的，但这次的日志没有指出具体是哪个字段有问题，排查发现应该不是mysql字段长度不够导致，后来在网上看可能是时间类型字段不匹配也会导致此报错。最终抓取到异常数据，有个日期相关的字段值为‘0024-01-16’（正确的应该为2024

overfit同步小助手 2024-05-30 01:03:54 0 收藏

linux搭建hadoop集群

&emsp;&emsp;Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统（ Distributed File System），其中一个组件是HDFS（H

overfit同步小助手 2024-05-30 00:03:57 0 收藏

Hive自定义GenericUDF函数

*** 自定义函数：将字符串转换为大写*//*** 初始化函数* @param arguments 函数参数的ObjectInspector数组* @return 函数返回值的ObjectInspector* @throws UDFArgumentException 如果参数数量不正确*/@Over

overfit同步小助手 2024-05-30 00:03:52 0 收藏