大数据 - overfit.cn

分布式进阶（二二）——分布式框架之可扩展：Zookeeper

本章，我介绍了Zookeeper的数据模型和最典型的几种使用场景，并在作为注册中心时，对Zookeeper和Eureka进行了比较。

overfit同步小助手 2024-04-10 05:03:33 0 收藏

重生之开启大数据之路

有一个误区，Spark是基于内存的计算，所以快，这不是主要原因，要对数据做计算，必然得加载到内存，Hadoop也是如此，只不过Spark支持将需要反复用到的数据Cache到内存中，减少数据加载耗时，所以Spark跑机器学习算法比较在行（需要对数据进行反复迭代）。2.容易上手开发：Spark的基于RD

overfit同步小助手 2024-04-10 05:03:14 0 收藏

@KafkaListener的配置使用

【代码】spring-kafka的配置使用。

overfit同步小助手 2024-04-10 01:03:53 0 收藏

flink的自动类型推导：解决udf的通用类型问题

使用flink的自动类型推导解决udf的通用类型问题

overfit同步小助手 2024-04-09 23:03:44 0 收藏

Hive调优总结

概述:hive的参数配置, 就是在那里配置hive的参数信息, 根据配置地方不同, 作用范围也不一样.配置方式:1. set方式进行设置.2. 命令行方式进行设置.3. 配置文件方式进行设置.优先级问题:set方式 > 命令行方式 > 配置文件方式作用范围:set方式 < 命令行方式 < 配置文件方

overfit同步小助手 2024-04-09 22:03:47 0 收藏

毕业设计基于大数据情感分析的网络舆情分析系统(源码+论文)

Python下有多款不同的 Web 框架，Django是最有代表性的一种。许多成功的网站和APP都基于Django。Django是一个开源的Web应用框架，由Python写成。Django采用了MVC的软件设计模式，即模型M，视图V和控制器C。

overfit同步小助手 2024-04-09 21:03:40 0 收藏

如何在Lambda Architecture中实现数据仓库与OLAP

1.背景介绍数据仓库和OLAP技术在现代数据分析和业务智能领域发挥着重要作用。随着数据规模的增长，传统的数据仓库和OLAP技术面临着挑战，需要更高效、可扩展的架构来支持大规模数据处理。Lambda Architecture 是一种新型的大数据处理架构，它结合了实时处理和批处理的优点，提供了一种有效的

overfit同步小助手 2024-04-09 19:03:46 0 收藏

Kafka数据推送配置 | 如何设置账号密码验证？

背景：之前资产信息用网络接口进行数据推送，但是接口推送需要验证而且反应较慢。Kafak中间件提供了另一种可行的数据推送方式，它可以进行消息队列推送，且反应速度快。但是Kafka需部署在公网环境，并进行登录验证，如果部署Kafka后未设置登录验证，会被恶意扫描到，此时向Kafka里面push超过1G的

overfit同步小助手 2024-04-09 18:03:51 0 收藏

Hive 数据类型

Hive 中的基本数据类型也称为原始类型，包括整数、小数、文本、布尔、二进制以及时间类型。整数:TINYINT、SMALLINT、INT、BIGINT小数: FLOAT、DOUBLE、DECIMAL文本: STRING、CHAR、VARCHAR布尔:BOOLEAN进制:BINARY时间: DATE、

overfit同步小助手 2024-04-09 18:03:31 0 收藏

Eureka vs. Nacos:注册中心角色之间的不同特性

Eureka和Nacos在微服务架构中作为注册中心具有不同的功能和规则。它们在服务获取机制、CAP理论影响（Eureka默认为AP，而Nacos根据实例类型而异）、数据存储方法（Eureka使用内存存储，Nacos支持多种存储选项）以及加载策略（Eureka使用饥饿加载，Nacos采用惰性加载）方面

overfit同步小助手 2024-04-09 17:03:55 0 收藏

RabbitMQ详解与常见问题解决方案

RabbitMQ 是一个开源的消息中间件，使用 Erlang 语言开发。这种语言天生非常适合分布式场景，RabbitMQ 也就非常适用于在分布式应用程序之间传递消息。

overfit同步小助手 2024-04-09 17:03:51 0 收藏

SpringBoot集成Flink-CDC，实现对数据库数据的监听

SpringBoot 集成 Flink CDC 实现对数据库表中数据变动的监听，源码中实现简易版增量迁移。

overfit同步小助手 2024-04-09 14:03:54 0 收藏

什么是RabbitMQ的死信队列

当消息变成“死信”之后，如果配置了死信队列，它将被发送到死信交换机，死信交换机将死信投递到一个队列上，这个队列就是死信队列。3.消息被拒绝：当消费者明确拒绝一条消息时，它可以被标记为死信并发送到死信队列。如果消息在规定的时间内没有被消费，它可以被认为是死信并被发送到死信队列。1.消息处理失败：当消费

overfit同步小助手 2024-04-09 14:03:42 0 收藏

【Spark编程基础】实验一Spark编程初级实践（附源代码）

Line 类的第一个参数表示其位置，第二个参数表示另一个端点，Line 放缩的时候，其中点位置不变，长度按倍数放缩（注意，缩放时，其两个端点信息也改变了），另外，Line 的 move 行为影响了另一个端点，需要对move 方法进行重载。Circle 类第一个参数表示其圆心，也是其位置，另一个参数表

overfit同步小助手 2024-04-09 13:03:37 0 收藏

看看Kafka生产环境如何调优

通常在生产环境中，Kafka都是用来应对整个项目中最高峰的流量的。这种极高的请求流量，对任何服务都是一个很大的负担，因此如果在生产环境中部署Kafka，也可以从以下几个方面进行一些优化。

overfit同步小助手 2024-04-09 13:03:18 0 收藏

Zookeeper学习一

建立连接有两种方式，一种是调用工厂对象的newClient（）方法，另一种就是调用工厂对象的builder()，通过的方法就连接信息传入工厂中。注意此方法需要加上@Before注解，表示其他测试方法执行前需要先执行加了的方法。因为每次进行crud操作时都需要与ZooKeeper Server建立连接

overfit同步小助手 2024-04-09 10:03:16 0 收藏

【postgresql 基础入门】聚合函数，通用型，统计分析型，多种多样的聚合函数满足数据的大数据的统计分析

在数据库管理系统中，SQL（结构化查询语言）的聚集函数扮演着至关重要的角色。它们能够对一组值执行计算，并返回单个值，为数据分析与决策提供了极大的便利。聚集函数不仅简化了复杂的数据处理任务，还使得数据的统计与汇总变得高效且准确。常见的SQL聚集函数包括求和（SUM）、平均值（AVG）、最大值（MAX）

overfit同步小助手 2024-04-09 09:03:30 0 收藏

漏洞扫描神器：Netsparker 保姆级教程（附链接）

Netsparker是一款专业的网络安全扫描工具，用于自动化地发现和修复网站和Web应用程序中的安全漏洞。它提供了全面的安全测试，包括SQL注入、跨站脚本攻击、远程文件包含、命令注入等常见的安全漏洞。Netsparker具有以下特点：自动化扫描：Netsparker能够自动扫描网站和Web应用程序，

overfit同步小助手 2024-04-09 08:03:44 0 收藏

数据仓库——设计

数据仓库需求只有在已经装载部分数据并开始使用时才能弄清楚数据仓库是在启发方式下建造的。

overfit同步小助手 2024-04-09 07:03:45 0 收藏

数字化坚鹏：小熊电器面向数字化转型的大数据顶层设计实践培训

数字化转型导师坚鹏深入解读了华为华为变革历程、华为数字化转型的愿景、华为数字化转型整体框架、华为数字化转型愿景解读示意、数字化转型规划方法、数字化转型成熟度评估、华为数字化转型举措（打造数字平台、对准业务作战、对准用户体验）、华为大数据应用以及数字化转型案例（包括构建统一数字化应用入口、数字工厂构建

overfit同步小助手 2024-04-09 04:03:50 0 收藏