大数据 - overfit.cn

CentOS安装kafka单机部署

1.解压kafka压缩包# 当前机器在集群中的唯一标识，和zookeeper的myid性质一样# 套接字服务器监听的地址。如果没有配置，主机名将等于的值# 当前kafka对外提供服务的端口默认是9092port=9092# 这个是borker进行网络处理的线程数# 这个是borker进行I/O处理的

overfit同步小助手 2024-02-04 13:03:27 0 收藏

Zookeeper与Eureka集成

1.背景介绍Zookeeper和Eureka都是分布式系统中常用的组件，它们各自具有不同的功能和应用场景。Zookeeper是一个开源的分布式协调服务，用于管理分布式应用程序的配置、服务发现、集群管理等功能。Eureka则是一个开源的服务发现平台，用于在微服务架构中自动发现和调用服务。在现代分布式系

overfit同步小助手 2024-02-04 12:03:53 0 收藏

【美团】交易系统平台-数据仓库研发工程师

更新时间：2024/01/28｜工作地点：北京市｜事业群：到家事业群｜工作经验：3年到家研发平台秉承“零售+科技”战略，致力于推动餐饮、零售需求侧和供给侧数字化升级，构建了超大规模的在线交易平台和实时调度系统，保障了百万商家和亿级用户的高效安全交易，实现了对百万骑手所在物理世界全链路的数字化。随着万

overfit同步小助手 2024-02-04 12:03:33 0 收藏

深入了解 Flink 的检查点机制

1.背景介绍Flink 是一个流处理框架，用于实时数据处理。检查点(checkpoint)机制是 Flink 的一个核心组件，用于保证流处理作业的可靠性和容错性。在这篇文章中，我们将深入了解 Flink 的检查点机制，涵盖其核心概念、算法原理、实例代码以及未来发展趋势。1.1 Flink 的检查点机

overfit同步小助手 2024-02-04 12:03:19 0 收藏

删除Kafka的Topic（提示：marked for deletion）

kafka存储目录由"server.properties"文件中的"log.dirs"参数指定，默认为"/tmp/kafka-logs"。删除topic时标记删除marked for deletion但未真正的删除。4.继续操作，通过zookeeper客户端zkCli.sh删除。5.查看topics

overfit同步小助手 2024-02-04 11:03:52 0 收藏

flink如何写入es

Flink sink流数据到es5和es7的简单示例。flink写入es5和es7 的区别是引入不同的flink-connector-elasticsearch,es7已没有type的概念故无需再设置type。

overfit同步小助手 2024-02-04 11:03:44 0 收藏

Spark

可以使用persist()方法将一个RDD标记为持久化。之所以说“标记为持久化”，是因为出现persist()语句的地方，并不会马上计算生成RDD并把它持久化，而是要等到遇到第一个Action操作触发真正计算以后，才会把计算结果进行持久化。中的data用来指定创建DataFrame对象的数据，可以是

overfit同步小助手 2024-02-04 11:03:25 0 收藏

Python网络爬虫实战——实验8：Python爬虫项目部署与kafka消息队实战

根据环境变量 ‘django_env’ 的值选择 Kafka 服务器地址，如果 ‘django_env’ 的值为’production’，则使用 192.168.0.151:9092否则，使用 192.168.0.228:9092。连接成功后，点击Mappings配置路径映射，local path

overfit同步小助手 2024-02-04 10:03:44 0 收藏

kafka的基本使用--学习笔记

kafka基本使用，消息队列解释，以及使用kafka写入数据的方式

overfit同步小助手 2024-02-04 10:03:35 0 收藏

数据仓库与Hadoop：如何实现大规模数据处理

1.背景介绍数据仓库和Hadoop都是处理大规模数据的重要技术，它们在现代数据科学和人工智能中发挥着至关重要的作用。数据仓库是一种用于存储和管理大量历史数据的系统，主要用于数据分析和报告。而Hadoop是一个开源的分布式文件系统和数据处理框架，主要用于处理大规模、分布式的实时数据。在本文中，我们将深

overfit同步小助手 2024-02-04 09:03:24 0 收藏

RabbitMQ问题总结

::info使用场景。

overfit同步小助手 2024-02-04 08:03:43 0 收藏

[hive] sql中distinct的用法和注意事项

在 Hive SQL 中，DISTINCT用于去重查询结果中的行。它返回唯一的行，消除结果集中的重复项。以下是DISTINCT。

overfit同步小助手 2024-02-04 07:03:24 0 收藏

Spark的内核调度

本文介绍了Spark的内核调度中的RDD的依赖,DAG有向无环图的形成和Stage的划分,以及Stage内部流程,还有Spark Shuffle的发展历程Hash Shuffle和Sort Shuffle,还包含了Job的调度流程,以及Spark RDD的并行度

overfit同步小助手 2024-02-04 06:03:46 0 收藏

消息队列-RabbitMQ（一）

rabbirMq

overfit同步小助手 2024-02-04 06:03:38 0 收藏

zookeeper【封神录】下篇

zookeeper从基础到入门1.客户端API2.服务器动态上下线3.分布式锁

overfit同步小助手 2024-02-04 05:03:52 0 收藏

大数据与容器化技术指南：Docker、Kubernetes与大数据生态常用命令大全

本书涵盖了Docker和Kubernetes的基本概念及常用命令，以及Zookeeper、HDFS、YARN、YARN资源池、HBase、HBase集成Phoenix、Hive、Kafka、Spark、Flink等大数据技术的常用命令。

overfit同步小助手 2024-02-04 05:03:49 0 收藏

Flink状态容错savepoint与checkpoint

本文目录CheckpointsState BackendsSavepointsCheckpoints 与 Savepoints区别Flink可以保证exactly once，与其容错机制checkpoint和savepoint分不开的。本文主要讲解两者的机制与使用，同时会对比两者的区别。Checkp

overfit同步小助手 2024-02-04 03:03:39 0 收藏

【大数据毕设选题】opencv python 深度学习垃圾图像分类系统

🔥 这两年开始毕业设计和毕业答辩的要求和难度不断提升，传统的毕设题目缺少创新和亮点，往往达不到毕业答辩的要求，这两年不断有学弟学妹告诉学长自己做的项目系统达不到老师的要求。为了大家能够顺利以及最少的精力通过毕设，学长分享优质毕业设计项目，今天要分享的是🚩opencv python 深度学习垃圾分

overfit同步小助手 2024-02-04 02:03:48 0 收藏

【Docker篇】Linux安装Docker、docker安装mysql、redis、rabbitmq

注意：新建容器之前，先关闭之前安装的mysql8.0，因为mysql默认端口号为3306。进入mysql5.7容器，并查看/etc/mysql目录下的my.conf配置文件是否存在。# 参数说明 -p 3312:3306 将容器的3306端口映射到主机的3312端口。# 默认是从国外的，不推荐，li

overfit同步小助手 2024-02-04 02:03:13 0 收藏

并行计算与大规模数据处理：Hadoop与Spark

1.背景介绍大数据是指由于互联网、物联网等新兴技术的发展，数据量巨大、高速增长、多源性、不断变化的数据。大数据处理技术是指利用计算机科学技术，对大规模、高速、多源、不断变化的数据进行存储、处理和挖掘，以实现数据的价值化。并行计算是指同时处理多个任务或数据，以提高计算效率。大规模数据处理是指处理的数据

overfit同步小助手 2024-02-04 01:03:52 0 收藏