大数据 - overfit.cn

zookeeper+kafka

1.1 zookeeper的概述ZooKeeper是一个分布式的，开放源码的分布式应用程序协调服务，是Google的Chubby一个开源的实现，是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件，提供的功能包括：配置维护、域名服务、分布式同步、组服务等。ZooKeeper

overfit同步小助手 2023-09-17 14:03:50 0 收藏

关于ETL的两种架构（ETL架构和ELT架构）

在ELT架构中，ELT只负责提供图形化的界面来设计业务规则，数据的整个加工过程都在目标和源的数据库之间流动，ELT协调相关的数据库系统来执行相关的应用，数据加工过程既可以在源数据库端执行，也可以在目标数据仓库端执行（主要取决于系统的架构设计和数据属性）。当ETL过程需要提高效率，则可以通过对相关数据

overfit同步小助手 2023-09-17 13:04:14 0 收藏

2023_Spark_实验六：Scala面向对象部分演示（二）（IDEA开发）

Idea, Scala面向对象部分演示（二）, apply, 继承、重写，匿名函数，抽象函数，特质，包的使用，文件访问等。

overfit同步小助手 2023-09-17 12:03:56 0 收藏

Kafka—工作流程、如何保证消息可靠性

分布式事件流平台。希望不仅仅是存储数据，还能够数据存储、数据分析、数据集成等功能。消息队列（把数据从一方发给另一方），消息生产好了但是消费方不一定准备好了（读写不一致），就需要一个中间商来存储信息，kafka就是中间商。

overfit同步小助手 2023-09-17 11:04:06 0 收藏

【spring cloud学习】3、Eureka Server注册中心

Eureka本身是Netflix开源的一款注册中心产品，并且Spring Cloud提供了相应的集成封装。Spring Cloud Eureka是Spring Cloud Netflix微服务套件的一部分，基于Netflix Eureka做了二次封装，主要负责完成微服务实例的自动注册与发现，这也是微

overfit同步小助手 2023-09-17 11:03:56 0 收藏

Flink读取mysql数据库(java)

Flink从mysql读取数据

overfit同步小助手 2023-09-17 11:03:38 0 收藏

TDsql

TDsql的简介及特点

overfit同步小助手 2023-09-17 10:04:00 0 收藏

spark sql 数据倾斜--join 同时开窗去重的问题优化

spark数据倾斜企业经验

overfit同步小助手 2023-09-17 09:03:34 0 收藏

【Python】PySpark

PySpark

overfit同步小助手 2023-09-17 09:03:30 0 收藏

大数据 | 实验二：文档倒排索引算法实现

倒排索引（Inverted Index）被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射，是目前几乎所有支持全文索引的搜索引擎都需要依赖的一个数据结构。

overfit同步小助手 2023-09-17 06:03:27 0 收藏

Flink-Window详细讲解-countWindow

当每个窗口中的元素数量达到 5 时，将触发计算。这意味着窗口 1 中的计算会在处理 5 个元素后触发，窗口 2 中的计算会在处理 10 个元素后触发。是持续监视整个数据流的元素数量，只有在数据流中的元素数量从不小于 5 变为不小于 10 时，才会再次触发计算。会持续监视整个数据流的元素数量，只有当元

overfit同步小助手 2023-09-17 05:04:06 0 收藏

大数据课程K17——Spark的协同过滤法

用特定的计算方法扫描和指定目标相同的已有用户，根据给定的相似度对用户进行相似度计算，选择最高得分的用户并根据其已有的信息作为推荐结果从而反馈给用户。在已有信息中，用户3已经选择了物品1和物品5，用户2比较偏向于选择物品2和物品4，而用户1选择了物品1、物品4以及物品5。那么完全有理由相信用户1和用户

overfit同步小助手 2023-09-17 05:04:00 0 收藏

通过云计算、大数据、人工智能等技术解决城市问题

云计算、大数据和人工智能技术已经成为城市问题解决的重要手段。通过监测和预测、智能化治理、智能交通管理、医疗大数据、互联网医疗、教育大数据和远程教育等方式，这些技术可以帮助我们更好地解决城市的污染、交通拥堵、看病难、上学难等问题。未来，我们可以预见，随着技术的不断进步和创新，云计算、大数据和人工智能技

overfit同步小助手 2023-09-17 05:03:52 0 收藏

实战，实现幂等的8种方案！

幂等是一个数学与计算机科学概念。。比如求绝对值的函数，就是幂等的，。计算机科学中，幂等表示一次和多次请求某一个资源应该具有同样的副作用，或者说，多次请求所产生的影响与一次请求执行的影响效果相同。

overfit同步小助手 2023-09-17 05:03:40 0 收藏

微服务: 05-rabbitmq设置重试次数并设置死信队列

上面文章是安装, 基础测试案例, 下面是进阶的第一篇文章本篇主要介绍自动确认进入死信队列手动确认在下一篇介绍服务A发起请求到 rabbitmq, 服务B监听并处理消息, 报错了, 重试了五次还不行后 , 进入死信队列。

overfit同步小助手 2023-09-17 05:03:32 0 收藏

Python操作HDFS文件的实用方法

Python操作HDFS文件的实用方法Apache Hadoop是一个开源的分布式计算系统，它提供了一种高效的方式来存储和处理大规模数据集。Hadoop的核心组件之一是Hadoop分布式文件系统（HDFS），它提供了可扩展的存储和高效的数据访问。在Python中，我们可以使用hdfs库来连接和操作H

overfit同步小助手 2023-09-17 03:03:40 0 收藏

flink优化

大状态调优：在我们的项目中，在做新老访客修复时，我们将每个mid的访问时间都存到了状态里面，在做回流用户数时，我们将每个用户的登录时间都存到了状态里面，导致了大状态问题，由于hashmap状态后端会将数据存储到内存，所以就会出现内存不够的情况。我们的解决办法就是将状态后端改成了rocksdb，并且开

overfit同步小助手 2023-09-16 23:03:33 0 收藏

Canal+Kafka实现Mysql数据同步

译意为水道/管道/沟渠，主要用途是基于 MySQL 数据库增量日志解析，提供增量数据订阅和消费canal可以用来监控数据库数据的变化，从而获得新增数据，或者修改的数据。canal是应阿里巴巴存在杭州和美国的双机房部署，存在跨机房同步的业务需求而提出的。阿里系公司开始逐步的尝试基于数据库的日志解析，获

overfit同步小助手 2023-09-16 21:03:57 0 收藏

Kafka监控工具，LinkedIn详解

Kafka Monitor：这是LinkedIn开发的一个监控工具，可以监控Kafka集群的健康和性能，并提供基于Web的用户界面。Kafka Manager：这是一个开源的Kafka集群管理工具，可以监控Kafka集群的健康和性能，并提供可视化的用户界面。Kafka-Web-Console：这是一

overfit同步小助手 2023-09-16 21:03:31 0 收藏

springboot kafka消息消费学习 @KafkaListener 使用

下面文件是读取本地 spring 的标准配置文件的类，用于一般属性获取等操作。为其他用于控制get set 方法的，与此处配置不是强关联，可以没有。用途：定义使用的基本 kafka 配置，以及定义Bean。spring boot 用于判断当前类是否加载的条件。：为我们的业务服务层，用于消费消息。

overfit同步小助手 2023-09-16 19:04:08 0 收藏