大数据 - overfit.cn

【项目实战】基于Hadoop大数据电商平台用户行为分析与可视化系统Hive、Spark计算机程序开发

overfit同步小助手 2024-01-06 20:03:28 0 收藏

docker 部署flink和遇到webui 下taskmanager的无stdout 打印解决

1. webui界面查看stdout的请求：我之前的错误，不是下面这个，之前的错误异常大概是找不到.out文件这样的（我懒得复现，就口头说了）大概就是没有生成.out文件，查看log界面的请求，是有返回的。但是还是给了我一些思路，下面是排查过程，不感兴趣的可以跳过。我也是参考这个文章的。

overfit同步小助手 2024-01-06 19:03:42 0 收藏

RabbitMQ常见问题及解决方案

消息丢失消息重复消息堆积保证消息顺序消费

overfit同步小助手 2024-01-06 18:03:40 0 收藏

Hadoop3教程（十四）：MapReduce中的排序

介绍了shuffle过程中的排序，关于排序是什么，有什么作用，在哪儿生效，以及有哪些分类，并对这些不同的排序分别贴了代码实现，也介绍了如何实现自定义排序

overfit同步小助手 2024-01-06 17:03:40 0 收藏

大数据机器学习TF-IDF 算法+SnowNLP智慧旅游数据分析可视化推荐系统

基于机器学习TF-IDF 算法SnowNLP大数据的智慧旅游数据分析可视化推荐系统通过数据采集、数据清洗、数据分析、数据可视化的技术，对景区数据进行爬取和收集。以旅游景点数据为基础分析景区热度，挖掘客流量、景区评价等信息，并对分析的结果进行统计。智慧旅游数据分析系统拟实现景区热度、景区展示、游客统计

overfit同步小助手 2024-01-06 16:03:48 0 收藏

Linux实战——Hadoop安装部署

1）Hadoop是一个由Apache基金会所开发的分布式系统基础架构。2）主要解决，海量数据的存储和海量数据的分析计算问题。三类组件Hadoop HDFS：提供分布式海量数据存储能力Hadoop YARN：提供分布式集群资源管理能力Hadoop MapReduce：提供分布式海量数据计算能力。

overfit同步小助手 2024-01-06 16:03:37 0 收藏

HBase的增删改查

一种分布式、可扩展、支持海量数据存储的Nosql数据库。

overfit同步小助手 2024-01-06 15:03:52 0 收藏

python-sql-spark常用操作

distinct用来查询不重复记录的条数,即用distinct来返回不重复字段的条数（count(distinct id)）,其原因是distinct只能返回他的目标字段，而无法返回其他字段。可以直接运行select rand() 获取0~1之间的float型的数字，类似的，如果想获得例如1~100

overfit同步小助手 2024-01-06 14:03:45 0 收藏

hive插入动态分区数据时，return code 2报错解决

如果上面语句没有解决，可以看下yarm配置，考虑是否是语句占用内存超过配置最大内存等等。大概率是因为没有开启允许动态分区或单次动态分区个数太小了。

overfit同步小助手 2024-01-06 13:03:58 0 收藏

基于地震数据的Spark数据处理与分析

5.根据经纬度获取地名针对全球重大地震数据进行分析，采用Python为编程语言，采用Hadoop存储数据，采用Spark对数据进行处理分析，并对结果进行数据可视化。

overfit同步小助手 2024-01-06 13:03:38 0 收藏

微服务实战系列之ZooKeeper（中）

昨日博主的第一篇ZooKeeper，对它自身具备的能力做了初步介绍。书接上文，马不停蹄，我们继续挖掘它内在的美，充分把握它的核心与脉络。博主通过揭秘ZooKeeper内在的核心逻辑，剖析它是如何完成我们想象中的职责和工作的。通过以上内容，我们可以发现，无论是什么协议或算法，均服务于某个业务和技术场景

overfit同步小助手 2024-01-06 13:03:31 0 收藏

【完整思路】2023 年中国高校大数据挑战赛赛题 B DNA 存储中的序列聚类与比对

完整的思路分析可视化，免费获取～

overfit同步小助手 2024-01-06 13:03:26 0 收藏

ElasticStack日志分析平台－ES 集群、Kibana与Kafka

overfit同步小助手 2024-01-06 12:03:44 0 收藏

Kafka_01_Kafka初识

Kafka基础概念

overfit同步小助手 2024-01-06 11:03:55 0 收藏

Eureka服务注册与发现中心

Spring Cloud封装了Netflix 公司开发的Eureka模块来实现服务治理在传统的RPC远程调用框架中，管理每个服务与服务之间依赖关系比较复杂，管理比较复杂，所以需要使用服务治理，管理服务于服务之间依赖关系，可以实现服务调用、负载均衡、容错等，实现服务发现与注册。

overfit同步小助手 2024-01-06 10:03:47 0 收藏

第二十章： Spring Boot 集成RabbitMQ（四）

本章知识点：死信队列的定义、场景、作用以及原理、TTL方法的使用以及演示代码示例。

overfit同步小助手 2024-01-06 09:03:46 0 收藏

Java中利用Redis,ZooKeeper,数据库等实现分布式锁(遥遥领先)

在我们进行单机应用开发涉及并发同步的时候，我们往往采用synchronized或者ReentrantLock的方式来解决多线程间的代码同步问题。但是当我们的应用是在分布式集群工作的情况下，那么就需要一种更加高级的锁机制，来处理种跨机器的进程之间的数据同步问题，这就是分布式锁。分布式锁，是控制分布式系

overfit同步小助手 2024-01-06 09:03:42 0 收藏

Spark大数据分析与实战笔记（第二章 Spark基础-04）

这句来自现代作家安妮宝贝的经典句子，它表达了对他人的赞美与崇拜。按回车键提交Spark作业后，观察Spark集群管理界面，其中“Running Applications”列表表示当前Spark集群正在计算的作业，执行几秒后，刷新界面，在Completed Applications表单下，可以看到当前

overfit同步小助手 2024-01-06 09:03:38 0 收藏

Flink Connector 开发

Flink里预定义了一部分source和sink。在这里分了几类。

overfit同步小助手 2024-01-06 08:03:17 0 收藏

Flink任务实战优化

一个好产品，功能应该尽量包装在服务内部；对于Flink而言，无疑是做到了这一点。但是用户在使用Flink的时候，依然可以从版本的选择、代码逻辑、资源参数、业务的数据情况等方面做任务级的定制化优化；用最合理的资源使用，保障实时性、稳定性和最佳Tps的处理能力

overfit同步小助手 2024-01-06 08:03:13 0 收藏