大数据 - overfit.cn

kafka集群搭建

kafka集群

overfit同步小助手 2023-05-16 15:03:49 0 收藏

数据分析毕业设计大数据招聘岗位数据分析与可视化 - 爬虫 python

该项目一共分为三个子任务完成，数据采集—数据预处理—数据分析/可视化。项目流程图项目架构图Flask是一个基于Werkzeug和Jinja2的轻量级Web应用程序框架。与其他同类型框架相比，Flask的灵活性、轻便性和安全性更高，而且容易上手，它可以与MVC模式很好地结合进行开发。Flask也有强大

overfit同步小助手 2023-05-16 15:03:46 0 收藏

值得推荐的13款可视化软件，快收藏！

数据可视化力求用图表结合的方式把所有的数据整合在某一图像上，这样呈现在观众眼前的画面不仅仅是美观，且比以往长篇大论或是密密麻麻的数据表格更直观易懂，更便于观察分析。到今年上半年为止，国内外已经有了很多发展的较好的数据可视化软件，接下来给大家一一介绍一下这些软件：...

overfit同步小助手 2023-05-16 14:04:05 0 收藏

Apsara Clouder大数据专项技能认证：基于MaxCompute的热门话题分析

数据质量六要素：完整性、唯一性、及时性（年龄、手机号码）、有效性（不符合格式）、准确性（符合格式内容错误）、一致性。按照年龄分组查询各个年龄的用户总数，并按照年龄排序，最后存储到age_num的表中，便于下一步做可视化。按照性别分别查询男女的推文数量，并存储到gender_num的表中，便于下一步做

overfit同步小助手 2023-05-16 14:03:51 0 收藏

Kafka之分区副本与ISR

Kafka的Topic分区本质是一个用于存储Topic下的消息的日志，但是只存一份日志会因为机器损坏或其他原因导致消息丢失不可恢复，因此需要多个相同的日志作为备份，提高系统可用性，这些备份在kafka中被称为副本(replica)。kafka将分区的所有副本均匀的分配到所有broker上，并从这些副

overfit同步小助手 2023-05-16 13:04:04 0 收藏

Hadoop HDFS

首先是一个文件系统，就是用来存储文件、存储数据。是大数据最底层一个服务。其次是一个分布式的文件系统。分布式意味着多台机器存储。场景互动：如何模拟实现分布式文件系统。或者说一个成熟的分布式文件系统应该要具备哪些属性、功能呢？分布式多台机器存储记录元数据分块存储副本机制（备份）

overfit同步小助手 2023-05-16 13:03:41 0 收藏

这个ChatGPT插件可以远程运行代码，还生成图表

插件系统的确让ChatGPT变得有趣:“Code Interpreter”不仅可以让远程运行代码，而且还使数据科学简单，高效。

overfit同步小助手 2023-05-16 12:03:52 0 收藏

kafka client for go

使用 sarama 开发 go 的 kafka client

overfit同步小助手 2023-05-16 11:04:16 0 收藏

大数据毕设项目大数据招聘岗位数据分析与可视化 - 爬虫 python 大屏可视化

该项目一共分为三个子任务完成，数据采集—数据预处理—数据分析/可视化。项目流程图项目架构图Flask是一个基于Werkzeug和Jinja2的轻量级Web应用程序框架。与其他同类型框架相比，Flask的灵活性、轻便性和安全性更高，而且容易上手，它可以与MVC模式很好地结合进行开发。Flask也有强大

overfit同步小助手 2023-05-16 11:04:07 0 收藏

Podman常用命令总结

overfit同步小助手 2023-05-16 11:04:04 0 收藏

[YOLOv7/YOLOv5系列算法改进NO.18]损失函数改进为Alpha-IoU损失函数

前言：作为当前先进的深度学习目标检测算法YOLOv5，已经集合了大量的trick，但是还是有提高和改进的空间，针对具体应用场景下的检测难点，可以不同的改进方法。此后的系列文章，将重点对YOLOv5的如何改进进行详细的介绍，目的是为了给那些搞科研的同学需要创新点或者搞工程项目的朋友需要达到更好的效

overfit同步小助手 2023-05-16 10:04:12 0 收藏

Hive字符串转日期细节

Hive日期函数的使用注意事项，date_format() ;to_date(); from_unixtime(unix_timestamp())的使用案例

overfit同步小助手 2023-05-16 10:04:03 0 收藏

流式数据湖存储技术，Apache Paimon是什么？

是一项流式数据湖存储技术，可以为用户提供高吞吐、低延迟的数据摄入、流式订阅以及实时查询能力。Paimon 采用开放的数据格式和技术理念，可以与 Apache Flink / Spark / Trino 等诸多业界主流计算引擎进行对接，共同推进 Streaming Lakehouse 架构的普及和发展

overfit同步小助手 2023-05-16 10:03:54 0 收藏

【消息通过rabbitTemplate.converAndSend发送后请求头丢失】

1. 对象用混了， rabbitTemplate是org.springframework.amqp.core包下的，所以使用org.springframework.amqp.core包下的Message对象就不会有问题，而使用org.springframework.messaging包下的Messa

overfit同步小助手 2023-05-16 10:03:43 0 收藏

ubuntu系统hadoop伪分布搭建详细教程

在ubuntu系统中，进行ssh jdk hadoop安装和配置，搭建hadoop伪分布集群

overfit同步小助手 2023-05-16 10:03:40 0 收藏

python消息队列4种方法及使用场景

4.延迟任务：有时候我们需要延迟执行某个任务，例如在某个特定的时间执行某个任务，或者在某个特定的事件发生后执行某个任务。在消息队列中，生产者可以将消息发布到指定的通道，订阅者可以订阅这些通道，接收并处理消息。日志收集：当需要对分布式系统进行日志收集时，可以将日志信息放入 RabbitMQ 的消息队列

overfit同步小助手 2023-05-16 09:04:07 0 收藏

记安装pyspark遇到问题已经解决问题的全过程

Could not fetch URL https://pypi.org/simple/pip/: There was a problem confirm

overfit同步小助手 2023-05-16 09:03:48 0 收藏

ZooKeeper分布式应用程序协调服务

ZooKeeper分布式应用程序协调服务详细介绍；实验部署ZooKeeper集群

overfit同步小助手 2023-05-16 08:03:55 0 收藏

RabbitMq同一队列多个消费者问题

我感觉我们的目的是想用rabbitmq 实现发布订阅的模式，其实不用纠结于多个消费者怎么取消费同一个队列里面的消息，我的理解是，1、消息生产者关心的是 1 消息 2 路由key 3 交换机而队列与交换机的绑定是消费者应该关心的事。3、至于谁想订阅这个消息作为生产者可以不用管，消息订阅者按照生产者

overfit同步小助手 2023-05-16 08:03:52 0 收藏

【Kafka】概述与集群部署

本文主要介绍了kafka的概述以及集群部署(含docker compose部署)

overfit同步小助手 2023-05-16 05:03:56 0 收藏