大数据 - overfit.cn

基于SpringBoot+大数据爬虫+hive的旅游景点数据分析平台设计和实现(源码+LW+部署讲解)

科学技术日新月异，人们的生活都发生了翻天覆地的变化，高校考试分析系统当然也不例外。过去的信息管理都使用传统的方式实行，既花费了时间，又浪费了精力。在信息如此发达的今天，我们可以通过网络这个媒介，快速的查找自己想要的信息，更加全方面的了解自己的网站信息。而且人们也可以突破传统信息管理的僵硬模式，制定属

overfit同步小助手 2024-07-02 04:03:25 0 收藏

Spark编程基础（Python版）实验三RDD编程

本文为Spark编程基础（python版）实验三提供了一个参考

overfit同步小助手 2024-07-02 03:03:39 0 收藏

2024年大数据、区块链与物联网国际会议（ICBDBLT 2024）

即将召开的2024年大数据、区块链与物联网国际会议，将汇聚全球顶尖的专家学者和行业精英，共同探讨大数据、区块链与物联网的前沿技术和创新应用。会议将聚焦大数据处理与分析、区块链技术在各行业的应用、物联网技术的最新进展等议题，旨在推动相关技术的融合与创新。与会者将有机会聆听国际知名专家的精彩演讲，交流研

overfit同步小助手 2024-07-02 02:03:52 0 收藏

Apache Flink类型及序列化研读&生产应用｜得物技术

本文将简单介绍它们背后的概念和基本原理，侧重分享在DataStream、Flink SQL自定义函数开发中对数据类型和序列的应用，以提升任务的运行效率。

overfit同步小助手 2024-07-02 02:03:49 0 收藏

数据仓库——维度表一致性

一致性矩阵可以作为实现蓝图，指明了所有事实表连接的位置，这允许独立地实现每一个事实表，并能可信地与那些已经存在的事实表协同工作。更好的描述一致性维度方式是采用矩阵图，列代表核心一致性维度，行代表不同的事实表，可通过在适当的交叉点放置检查标志来阐明一致性。一致性维度是维度建模的关键，缺乏一致性，就难以

overfit同步小助手 2024-07-02 00:04:26 0 收藏

自用云计算 | pyspark | 常见RDD算子及例子（云计算期末）

大学生期末复习主要包括云计算基本的概念常见的pyspark算子于对应的例子定义：云计算是一种通过互联网提供计算服务的技术。相比于传统计算，它的资源获取方式，从“买”变为“租”资源池化弹性伸缩安全可靠定义：RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是S

overfit同步小助手 2024-07-01 22:03:44 0 收藏

【基于Hadoop3.3.6+Spark3.4.3电商用户行为分析】

电商用户分析是指对电商平台上的用户进行细分和分析，以了解用户特征、行为和需求，从而优化产品、服务和营销策略。本文主要利用Spark框架分析用户在电商平台上的行为，如浏览商品、购买商品、添加到购物车等，以了解用户的购买意愿、偏好和行为路径，针对其中部分数据分别统计出用户点击行为、下单行为、支付行为以及

overfit同步小助手 2024-07-01 18:03:52 0 收藏

Hive--删除数据库

删除一个空数据库，如果数据库下面有数据表，那么就会报错。强制删除数据库，包含数据库下面的表一起删除。

overfit同步小助手 2024-07-01 18:03:49 0 收藏

地理信息科学中的大数据挑战

地理信息科学中的大数据挑战，既是技术革新的驱动力，也是科学探索的新边疆。通过持续创新数据处理与分析技术，我们不仅能够更深入地理解地球的复杂动态，还能为实现可持续发展目标、优化城市管理、保护生态环境等提供更加精准和高效的解决方案。在这个数据驱动的时代，GIScience正以前所未有的方式塑造着我们的世

overfit同步小助手 2024-07-01 18:03:44 0 收藏

【大数据导论】大数据序言

数据概念及类型及可用及组织形式个人大佬的，将是我成长路上阿川水平有限，如，欢迎大佬。

overfit同步小助手 2024-07-01 18:03:36 0 收藏

Hive期末总结

Hive总结

overfit同步小助手 2024-07-01 18:03:33 0 收藏

贝壳找房基于Flink+Paimon进行全量数据实时分组排序的实践

本文投稿自贝壳家装数仓团队，在结合家装业务场景下所探索出的一种基于 Flink+Paimon 的排序方案。这种方案可以在实时环境对全量数据进行准确的分组排序，同时减少对内存资源的消耗。

overfit同步小助手 2024-07-01 16:03:20 0 收藏

kafka 集群 Controller 节点和 zookeeper 集群 leader 节点有何区别联系？

Kafka 集群中的 Controller 节点和 ZooKeeper 集群中的 Leader 节点在角色和功能上有明显的区别，但它们之间也有一定的联系。

overfit同步小助手 2024-07-01 15:03:51 0 收藏

Flink的简介以及基本概念

有界流和无界流有状态的流处理。

overfit同步小助手 2024-07-01 15:03:44 0 收藏

安装 hbase（伪分布式）

安装伪分布式 hbase

overfit同步小助手 2024-07-01 15:03:39 0 收藏

Spark与Hive的比较与优势

1.背景介绍1. 背景介绍Apache Spark和Hive都是大数据处理领域的重要工具。Spark是一个快速、高效的大数据处理框架，可以处理批量数据和流式数据。Hive则是一个基于Hadoop的数据仓库系统，可以处理大量结构化数据。在大数据处理领域，选择合适的工具是非常重要的。因此，了解Spark

overfit同步小助手 2024-07-01 15:03:18 0 收藏

hadoop学习---基于Hive的教育平台数据仓库分析案例（二）

overfit同步小助手 2024-07-01 14:03:28 0 收藏

一文教你在k8s中部署单机版kafka（保姆级教程）

本文详细阐述了在Kubernetes（k8s）集群中部署单机版Apache Kafka的步骤和注意事项。Kafka是一个分布式流处理平台，广泛应用于大数据处理、实时日志分析、事件驱动微服务等场景。在k8s中部署Kafka可以充分利用其容器编排和自动化管理的优势，提高Kafka集群的可用性和可伸缩性。

overfit同步小助手 2024-07-01 13:03:40 0 收藏

大数据-Hadoop-基础篇-第四章-MapReduce （离线计算引擎）

MapReduce 常用于对大规模数据集(大于 1TB)的并行运算，或对大数据进行加工、挖掘和优化等处理。MapReduce 将并行计算过程高度抽象到了两个函数 map 和reduce 中，程序员只需负责 map和 reduce 函数的编写工作，而并行程序中的其它复杂问题(如分布式存储、工作调度、负

overfit同步小助手 2024-07-01 12:03:51 0 收藏

数据仓库之数据字典

数据字典是描述数据仓库中数据结构、内容、关系及其他元数据的工具。它为数据仓库用户提供了数据仓库中数据的全面视图，帮助他们理解和使用数据。

overfit同步小助手 2024-07-01 12:03:45 0 收藏