【机器学习】推荐系统——基于用户行为分析的个性化推荐技术
推荐系统是一种通过分析用户行为、历史偏好等数据,预测用户可能感兴趣的内容或商品的技术。它广泛应用于电子商务、流媒体等平台,目标是提高用户参与度、增加转化率并帮助用户快速找到感兴趣的内容。常见类型包括基于内容、协同过滤和混合推荐系统,常用算法有K近邻、矩阵分解及深度学习模型。Netflix和Amazo
Spark-ShuffleWriter-UnsafeShuffleWriter
ShuffleMapTask向调度器返回的结果。包括任务存储shuffle文件的块管理器地址,以及每个reducer的输出大小,以便传递给reduce任务。当调度器发现这个ShuffleMapTask执行完成,就会执行下一个ShuffleMapTask或者ResultTask。
PrettyZoo:一款强大的跨平台 Zookeeper 客户端工具
PrettyZoo:一款强大的跨平台 Zookeeper 客户端工具 ZK客户端mac安装PrettyZoo 项目地址: https://git
实时流处理框架(如Flink、Spark Streaming)
Flink提供了多种时间语义(Time Semantics),包括事件时间(Event Time)、处理时间(Processing Time)和摄取时间(Ingestion Time)。Checkpoint会定期将系统的状态(包括算子的状态)持久化到外部存储(如HDFS、S3等),以便在发生故障时能
RabbitMQ08_保证消息可靠性
消息投递到MQ但是MQ路由失败,MQ返回路由失败原因。持久消息投递到了MQ且入队完成持久化,返回ACK。临时消息投递到了MQ且入队成功,返回ACK。持久化消息:发送消息时将消息的。消息投递异常,返回NACK。
详解 Flink 的状态管理
无状态的流处理:根据每一次当前输入的数据直接转换输出结果的过程,在处理中只需要观察每个输入的独立事件。例如, 将一个字符串类型的数据拆分开作为元组输出或将每个输入的数值加 1 后输出。Flink 中的基本转换算子 (map、filter、flatMap 等) 在计算时不依赖其他数据,所以都属于无状态
大数据Hive组件安装
进入Hadoop/share/hadoop/common/lib目录下,将新版本的guava.jar复制到hive/lib目录下。解决:将hive目录下的低版本guava.jar更换成Hadoop下的高版本guava.jar即可。进入/export/server/apache-hive-3.1.2-
HBase中Master初始化错误~
2、启动zookeeper中的zkCli.sh服务。3、执行完毕显示以下结果,删除habse文件夹。4、重新启动HBase即可。1、停止HBase运行。
「Kafka」Kafka消息可靠性和重复消费问题(五)
在 Kafka 中,实现消息的和是保证数据一致性和系统稳定性的关键。Kafka 提供了多种机制来实现这两个目标。
Kafka--高吞吐量消息中间件
Kafka保证一个Partiton内的消息的有序性(分区间数据是无序的,如果对数据的顺序有要求,应将在创建主题时将分区数partitions设置为1)1.Kafka通过O(1)的磁盘数据结构提供消息的持久化,这种结构对于即使数以TB级别以上的消息存储也能够保持长时间的稳定性能·创建topic名为wa
大数据-161 Apache Kylin 构建Cube 按照日期、区域、产品、渠道 与 Cube 优化
Apache Kylin 是一个开源的分布式分析引擎,专注于提供大数据的实时OLAP(在线分析处理)能力。Cube(立方体)是 Apache Kylin 的核心概念之一,通过预计算大规模数据的多维数据集合,加速复杂的 SQL 查询。Kylin Cube 查询与优化的关键在于利用预计算和裁剪技术最大化
分布式理论+ZooKeeper相关概念总结
即牺牲数据的一致性来满足系统的高可用性,系统中一部分数据不可用或者不一致时,仍需要保持系统整体“主要可用”。,其设计目标是将复杂且容易出错的分布式一致性服务封装起来,构成可靠的原语集提供给用户使用,如:数据发布/订阅、负载均衡、Master选举、集群管理、分布式协调/通知、分布式锁、分布式队列。是为
大数据与人工智能关联性辨析
在我认为,大数据的概念更多的是围绕数据来说的,是一整个数据处理的解决方案,偏重于数据体现的价值。如果数据的收集(衍生到线下)、量化问题没有解决,这里是线下的数据线上化、可计算化,那么人工智能这东西就无从谈起,要么也只是小范围的应用而已,远不能够达到普及的水平。大数据是基于海量数据进行分析从而发现一些
SparkRDD数据广播变量:broadcast
《SparkRDD数据广播变量:broadcast》1. 背景介绍1.1 问题的由来在分布式计算系统中,数据传输成本往往成为系统性能的瓶颈。Spark作为一款流行的分布式计算框架,为了提高数据传输效率,引入了数据广播(
EUREKA:通过编码大语言模型实现人类级别的奖励设计
24年4月来自Nvidia、UPenn、Caltech 和 UT Austin 的论文“EUREKA: Human-Level Reward Design Via Coding Large Language Models”。
【Kafka源码走读】消息生产者与服务端的连接过程
kafka生产者连接服务端的源码走读过程
Hive UDF自定义函数原理与代码实例讲解
Hive UDF自定义函数原理与代码实例讲解作者:禅与计算机程序设计艺术 / Zen and the Art of Computer Programming1. 背景介绍1.1 问题的由来随着大数据时代的到来,
尚硅谷大数据技术-Kafka视频教程-笔记01【Kafka 入门】
尚硅谷大数据技术-Kafka视频教程-笔记01【Kafka 入门】
Mini-Flink:轻量级的Flink学习工具箱
Mini-Flink:轻量级的Flink学习工具箱 mini-flink项目地址:https://gitcode.com/gh_mirrors/mi/mini-flink 项目介绍Mini-Flink 是一个简化版的 Apache Flink 实现,旨在为初学者提供一个低门槛的学习环境。该项目由co
毕设成品 大数据B站数据分析可视化系统
🔥这两年开始毕业设计和毕业答辩的要求和难度不断提升,传统的毕设题目缺少创新和亮点,往往达不到毕业答辩的要求,这两年不断有学弟学妹告诉学长自己做的项目系统达不到老师的要求。为了大家能够顺利以及最少的精力通过毕设,学长分享优质毕业设计项目,今天要分享的是🚩毕业设计 大数据B站数据分析可视化系统🥇学