[Spark、hadoop]DStream的窗口操作、输出操作、实例——实现网站热词排序
Dstream(Discretized Stream)是Spark Streaming数据的基本传输单位。它表示一个连续的数据流,这个数据流可以是原始的数据输入流,也可以是将原始的数据输入流通过转换生成已处理的数据输入流特点1、Spark Streaming对流数据按秒/分等时间间隔进行微批划分,每
大数据ClickHouse进阶(十八):数据字典类型
在创建字典表语句中使用“layout”来指定字典的类型,目前扩展字典支持7种类型,分别为flat、hashed、range_hashed、cache、complex_key_hashed、complex_key_cache、ip_trie,不同的字典类型决定了数据在内存中以何种结构组织和存储。使用c
RabbitMQ:死信队列
队列中不能被消费的消息称为死信队列有时候因为特殊原因,可能导致队列中的某些信息无法被消费,而队列中这些不能被消费的消息在后期没有进行处理,就会变成死信队列,死信队列中的消息称为死信。应用场景:未来保证订单业务的消息数据不丢失,我们需要使用到RabbitMQ的死信队列机制,当消息消费发生异常的时候,我
RabbitMQ如何保证幂等性
幂等性是分布式中比较重要的一个概念,是指在多作业操作时候避免造成重复影响,其实就是保证同一个消息不被消费者重复消费两次,但是可能存在网络波动等问题,生产者无法接受消费者发送的ack信息,因此这条消息将会被重复发送给其他消费者进行消费,实际上这条消息已经被消费过了,这就是重复消费的问题。如何避免重复消
Mysql索引失效的常见原因&如何用好索引
本篇文章主要介绍了索引失效的常见原因和如何用好索引,并以案例的形式进行了说明
毕业设计 基于大数据的共享单车数据分析与可视化
🔥 这两年开始毕业设计和毕业答辩的要求和难度不断提升,传统的毕设题目缺少创新和亮点,往往达不到毕业答辩的要求,这两年不断有学弟学妹告诉学长自己做的项目系统达不到老师的要求。为了大家能够顺利以及最少的精力通过毕设,学长分享优质毕业设计项目,今天要分享的是🚩基于大数据的共享单车数据分析与可视化🥇学
时间序列分析中最值得推荐的10个 Python 库
Python中有许多可用的时间序列预测库(比我们在这里介绍的更多)。每个库都有自己的优缺点,因此根据自己的需要选择合适的是很重要的。如果你有什么更好的推荐,请留言告诉我们。
大数据面试题汇总【持续更新】
【持续更新】大数据面试题汇总(ZooKeeper、Hadoop、HDFS、MapReduce、YARN和Hive常见面试题)
基于 RDD 的分布式数据处理实验(pyspark)
ubuntu环境下安装anaconda,jupyter notebook与spark连接并实现交互,并基于恐怖袭击数据集通过RDD实现数据分析及可视化;最后附上standalone和yarn的两种任务提交方式的方法。
大数据精品栏目介绍
一、大数据入门核心技术大数据入门核心技术栏目里集合等大数据必学的核心技术。初学者选择这个栏目,可以快速了解大数据知识体系,为后面的扩展性的深度学习大数据打下坚实的基础。二、数据湖基础+湖仓一体电商项目数据湖是一个集中式的存储库,允许你以任意规模存储多个来源、所有结构化和非结构化数据,可以按照原样存储
RocketMQ的单机安装以及启动
RocketMQ的单机安装以及启动
大数据OLAP技术体系学习框架
利用框架的力量,看懂游戏规则,才是入行的前提大多数人不懂,不会,不做,才是你的机会,你得行动,不能畏首畏尾选择才是拉差距关键,风向,比你流的汗水重要一万倍,逆风划船要累死人的上面这些看似没用,但实际很重要,这里就不再具体说明,感兴趣的同学可以看看我的学习框架的重要性我是怎么坚持学习的怎么确定学习目标
大数据面试之kafka重点(二)
大数据面试之kafka重点(二)
安装下载Anaconda注意事项,一定注意,否则白费力气
一定要关注这些简单的注意事项,否则白费力气啊!!!
Kafka SASL/PLAIN加密 及Kafka-Python整合
SASL/PLAIN是kafka中一种使用用户名/密码的身份验证机制,本文使用Kafka-Python2.02 及kafka3.2.0进行简单的整合操作。
【Apache Spark 】第 2 章下载 Apache Spark并开始使用
在本章中,我们将帮助您设置 Spark,并通过三个简单的步骤开始编写您的第一个独立应用程序。我们将使用本地模式,其中所有处理都在 Spark shell 中的单台机器上完成——这是一种学习框架的简单方法,为迭代执行 Spark 操作提供快速反馈循环。使用 Spark shell,您可以在编写复杂的
【Apache Spark 】第 1 章Apache Spark 简介:统一分析引擎
本章列出了 Apache Spark 的起源及其基本理念。它还调查了项目的主要组件及其分布式架构。如果您熟悉 Spark 的历史和高级概念,可以跳过本章。
【Hadoop技术篇】hive的优化,经典面试
hive的优化,经典面试
ELK日志分析
ELK日志分析
客快物流大数据项目学习框架
利用框架的力量,看懂游戏规则,才是入行的前提大多数人不懂,不会,不做,才是你的机会,你得行动,不能畏首畏尾选择才是拉差距关键,风向,比你流的汗水重要一万倍,逆风划船要累死人的上面这些看似没用,但实际很重要,这里我就不再具体说明,感兴趣的同学可以看看我的学习框架的重要性我是怎么坚持学习的怎么确定学习目