【项目实战】基于Hadoop大数据电商平台用户行为分析与可视化系统Hive、Spark计算机程序开发
【项目实战】基于Hadoop大数据电商平台用户行为分析与可视化系统Hive、Spark计算机程序开发
docker 部署flink和遇到webui 下taskmanager的无stdout 打印解决
1. webui界面查看stdout的请求:我之前的错误,不是下面这个,之前的错误异常大概是找不到.out文件这样的(我懒得复现,就口头说了)大概就是没有生成.out文件,查看log界面的请求,是有返回的。但是还是给了我一些思路,下面是排查过程,不感兴趣的可以跳过。我也是参考这个文章的。
RabbitMQ常见问题及解决方案
消息丢失消息重复消息堆积保证消息顺序消费
Hadoop3教程(十四):MapReduce中的排序
介绍了shuffle过程中的排序,关于排序是什么,有什么作用,在哪儿生效,以及有哪些分类,并对这些不同的排序分别贴了代码实现,也介绍了如何实现自定义排序
大数据机器学习TF-IDF 算法+SnowNLP智慧旅游数据分析可视化推荐系统
基于机器学习TF-IDF 算法SnowNLP大数据的智慧旅游数据分析可视化推荐系统通过数据采集、数据清洗、数据分析、数据可视化的技术,对景区数据进行爬取和收集。以旅游景点数据为基础分析景区热度,挖掘客流量、景区评价等信息,并对分析的结果进行统计。智慧旅游数据分析系统拟实现景区热度、景区展示、游客统计
Linux实战——Hadoop安装部署
1)Hadoop是一个由Apache基金会所开发的分布式系统基础架构。2)主要解决,海量数据的存储和海量数据的分析计算问题。三类组件Hadoop HDFS:提供分布式海量数据存储能力Hadoop YARN:提供分布式集群资源管理能力Hadoop MapReduce:提供分布式海量数据计算能力。
HBase的增删改查
一种分布式、可扩展、支持海量数据存储的Nosql数据库。
python-sql-spark常用操作
distinct用来查询不重复记录的条数,即用distinct来返回不重复字段的条数(count(distinct id)),其原因是distinct只能返回他的目标字段,而无法返回其他字段。可以直接运行select rand() 获取0~1之间的float型的数字,类似的,如果想获得例如1~100
hive插入动态分区数据时,return code 2报错解决
如果上面语句没有解决,可以看下yarm配置,考虑是否是语句占用内存超过配置最大内存等等。大概率是因为没有开启允许动态分区或单次动态分区个数太小了。
基于地震数据的Spark数据处理与分析
5.根据经纬度获取地名针对全球重大地震数据进行分析,采用Python为编程语言,采用Hadoop存储数据,采用Spark对数据进行处理分析,并对结果进行数据可视化。
微服务实战系列之ZooKeeper(中)
昨日博主的第一篇ZooKeeper,对它自身具备的能力做了初步介绍。书接上文,马不停蹄,我们继续挖掘它内在的美,充分把握它的核心与脉络。博主通过揭秘ZooKeeper内在的核心逻辑,剖析它是如何完成我们想象中的职责和工作的。通过以上内容,我们可以发现,无论是什么协议或算法,均服务于某个业务和技术场景
【完整思路】2023 年中国高校大数据挑战赛 赛题 B DNA 存储中的序列聚类与比对
完整的思路分析可视化,免费获取~
ElasticStack日志分析平台-ES 集群、Kibana与Kafka
ElasticStack日志分析平台-ES 集群、Kibana与Kafka
Kafka_01_Kafka初识
Kafka基础概念
Eureka服务注册与发现中心
Spring Cloud封装了Netflix 公司开发的Eureka模块来实现服务治理在传统的RPC远程调用框架中,管理每个服务与服务之间依赖关系比较复杂,管理比较复杂,所以需要使用服务治理,管理服务于服务之间依赖关系,可以实现服务调用、负载均衡、容错等,实现服务发现与注册。
第二十章 : Spring Boot 集成RabbitMQ(四)
本章知识点:死信队列的定义、场景、作用以及原理、TTL方法的使用以及演示代码示例。
Java中利用Redis,ZooKeeper,数据库等实现分布式锁(遥遥领先)
在我们进行单机应用开发涉及并发同步的时候,我们往往采用synchronized或者ReentrantLock的方式来解决多线程间的代码同步问题。但是当我们的应用是在分布式集群工作的情况下,那么就需要一种更加高级的锁机制,来处理种跨机器的进程之间的数据同步问题,这就是分布式锁。分布式锁,是控制分布式系
Spark大数据分析与实战笔记(第二章 Spark基础-04)
这句来自现代作家安妮宝贝的经典句子,它表达了对他人的赞美与崇拜。按回车键提交Spark作业后,观察Spark集群管理界面,其中“Running Applications”列表表示当前Spark集群正在计算的作业,执行几秒后,刷新界面,在Completed Applications表单下,可以看到当前
Flink Connector 开发
Flink里预定义了一部分source和sink。在这里分了几类。
Flink任务实战优化
一个好产品,功能应该尽量包装在服务内部;对于Flink而言,无疑是做到了这一点。但是用户在使用Flink的时候,依然可以从版本的选择、代码逻辑、资源参数、业务的数据情况等方面做任务级的定制化优化;用最合理的资源使用,保障实时性、稳定性和最佳Tps的处理能力