【项目实战】基于Hadoop大数据电商平台用户行为分析与可视化系统Hive、Spark计算机程序开发

【项目实战】基于Hadoop大数据电商平台用户行为分析与可视化系统Hive、Spark计算机程序开发

docker 部署flink和遇到webui 下taskmanager的无stdout 打印解决

1. webui界面查看stdout的请求:我之前的错误,不是下面这个,之前的错误异常大概是找不到.out文件这样的(我懒得复现,就口头说了)大概就是没有生成.out文件,查看log界面的请求,是有返回的。但是还是给了我一些思路,下面是排查过程,不感兴趣的可以跳过。我也是参考这个文章的。

RabbitMQ常见问题及解决方案

消息丢失消息重复消息堆积保证消息顺序消费

Hadoop3教程(十四):MapReduce中的排序

介绍了shuffle过程中的排序,关于排序是什么,有什么作用,在哪儿生效,以及有哪些分类,并对这些不同的排序分别贴了代码实现,也介绍了如何实现自定义排序

大数据机器学习TF-IDF 算法+SnowNLP智慧旅游数据分析可视化推荐系统

基于机器学习TF-IDF 算法SnowNLP大数据的智慧旅游数据分析可视化推荐系统通过数据采集、数据清洗、数据分析、数据可视化的技术,对景区数据进行爬取和收集。以旅游景点数据为基础分析景区热度,挖掘客流量、景区评价等信息,并对分析的结果进行统计。智慧旅游数据分析系统拟实现景区热度、景区展示、游客统计

Linux实战——Hadoop安装部署

1)Hadoop是一个由Apache基金会所开发的分布式系统基础架构。2)主要解决,海量数据的存储和海量数据的分析计算问题。三类组件Hadoop HDFS:提供分布式海量数据存储能力Hadoop YARN:提供分布式集群资源管理能力Hadoop MapReduce:提供分布式海量数据计算能力。

HBase的增删改查

一种分布式、可扩展、支持海量数据存储的Nosql数据库。

python-sql-spark常用操作

distinct用来查询不重复记录的条数,即用distinct来返回不重复字段的条数(count(distinct id)),其原因是distinct只能返回他的目标字段,而无法返回其他字段。可以直接运行select rand() 获取0~1之间的float型的数字,类似的,如果想获得例如1~100

hive插入动态分区数据时,return code 2报错解决

如果上面语句没有解决,可以看下yarm配置,考虑是否是语句占用内存超过配置最大内存等等。大概率是因为没有开启允许动态分区或单次动态分区个数太小了。

基于地震数据的Spark数据处理与分析

5.根据经纬度获取地名针对全球重大地震数据进行分析,采用Python为编程语言,采用Hadoop存储数据,采用Spark对数据进行处理分析,并对结果进行数据可视化。

微服务实战系列之ZooKeeper(中)

昨日博主的第一篇ZooKeeper,对它自身具备的能力做了初步介绍。书接上文,马不停蹄,我们继续挖掘它内在的美,充分把握它的核心与脉络。博主通过揭秘ZooKeeper内在的核心逻辑,剖析它是如何完成我们想象中的职责和工作的。通过以上内容,我们可以发现,无论是什么协议或算法,均服务于某个业务和技术场景

ElasticStack日志分析平台-ES 集群、Kibana与Kafka

ElasticStack日志分析平台-ES 集群、Kibana与Kafka

Kafka_01_Kafka初识

Kafka基础概念

Eureka服务注册与发现中心

Spring Cloud封装了Netflix 公司开发的Eureka模块来实现服务治理在传统的RPC远程调用框架中,管理每个服务与服务之间依赖关系比较复杂,管理比较复杂,所以需要使用服务治理,管理服务于服务之间依赖关系,可以实现服务调用、负载均衡、容错等,实现服务发现与注册。

第二十章 : Spring Boot 集成RabbitMQ(四)

本章知识点:死信队列的定义、场景、作用以及原理、TTL方法的使用以及演示代码示例。

Java中利用Redis,ZooKeeper,数据库等实现分布式锁(遥遥领先)

在我们进行单机应用开发涉及并发同步的时候,我们往往采用synchronized或者ReentrantLock的方式来解决多线程间的代码同步问题。但是当我们的应用是在分布式集群工作的情况下,那么就需要一种更加高级的锁机制,来处理种跨机器的进程之间的数据同步问题,这就是分布式锁。分布式锁,是控制分布式系

Spark大数据分析与实战笔记(第二章 Spark基础-04)

这句来自现代作家安妮宝贝的经典句子,它表达了对他人的赞美与崇拜。按回车键提交Spark作业后,观察Spark集群管理界面,其中“Running Applications”列表表示当前Spark集群正在计算的作业,执行几秒后,刷新界面,在Completed Applications表单下,可以看到当前

Flink Connector 开发

Flink里预定义了一部分source和sink。在这里分了几类。

Flink任务实战优化

一个好产品,功能应该尽量包装在服务内部;对于Flink而言,无疑是做到了这一点。但是用户在使用Flink的时候,依然可以从版本的选择、代码逻辑、资源参数、业务的数据情况等方面做任务级的定制化优化;用最合理的资源使用,保障实时性、稳定性和最佳Tps的处理能力

登录可以使用的更多功能哦! 登录
作者榜
...
资讯小助手

资讯同步

...
内容小助手

文章同步

...
Deephub

公众号:deephub-imba

...
奕凯

公众号:奕凯的技术栈