大数据 - overfit.cn

基于python+大数据爬虫技术+数据可视化+Spark的电力能耗数据分析与可视化平台设计与实现

随着经济的发展和人口的增加，能源消耗也在不断增加。电力作为人们生产和生活中不可或缺的一部分，对于能源消耗的贡献也非常大。传统的电力供应模式已经无法满足人们对电力的需求，同时也带来了环境污染等问题。如何优化电力供应模式，提高能源利用效率，成为了当前亟待解决的问题。而电力能耗数据分析正是解决这一问题的有

overfit同步小助手 2024-12-12 00:03:42 0 收藏

Hadoop 3.x 新特性详解

overfit同步小助手 2024-12-12 00:03:27 0 收藏

毕业设计项目 python大数据旅游数据分析可视化系统(源码分享)

🔥 这两年开始毕业设计和毕业答辩的要求和难度不断提升，传统的毕设题目缺少创新和亮点，往往达不到毕业答辩的要求，这两年不断有学弟学妹告诉学长自己做的项目系统达不到老师的要求。为了大家能够顺利以及最少的精力通过毕设，学长分享优质毕业设计项目，今天要分享的是🚩 **基于python的旅游数据分析可视

overfit同步小助手 2024-12-11 23:03:46 0 收藏

2023_Spark_实验九：编写WordCount程序（Scala版）

Scala版本的wordcount

overfit同步小助手 2024-12-11 22:04:01 0 收藏

期末复习-Hadoop名词解释+简答题+代码题hive

如果从字面意思来看，大数据指的是海量数据；从大数据特点来看，大数据具有海量、流转快、数据类型丰富及价值密度低等特点；如果从技术角度来看，大数据的战略意义不仅在于掌握庞大的数据，还包括对这些数据进行有效处理；换言之，如果把大数据比作一种产业，那么这种产业盈利的关键在于提高对大数据的加工能力，通过加工技

overfit同步小助手 2024-12-11 20:03:34 0 收藏

【Git】解决分支冲突、分支合并、版本回退、版本管理

无论是本地冲突还是远程冲突，步骤都是类似的。尝试合并或拉取更改。检查冲突文件。手动解决冲突。标记解决后的文件并提交。

overfit同步小助手 2024-12-11 14:04:22 0 收藏

Filter过滤器的使用

Filter过滤器是一种部署在Web服务器上的组件，它能够对客户端发送到服务器的请求以及服务器返回给客户端的响应进行拦截和处理。通过Filter过滤器，开发者可以在请求到达Servlet之前或响应发送给客户端之前对它们进行各种操作。当用户请求某个Servlet时，会先执行部署在这个请求上的Filte

overfit同步小助手 2024-12-11 14:03:41 0 收藏

flink 内存配置（三）：设置JobManager内存

JobManager是Flink集群的控制元素。Flink由3部分组成：资源管理器（Resource Manager）、调度器（Dispatcher）和每个运行的Flink作业对应的JobMaster。注意下面的讲解适用于JobManager 1.11之后的版本。

overfit同步小助手 2024-12-11 14:03:24 0 收藏

【Apache Paimon】-- 4 -- Flink 消费 kafka 数据，然后写入 paimon

注意：此案例以阿里云 OSS 作为 checkpoint 和 apache paimon 的存储介质，存储格式默认为 parquet。// Step 3、若使用 oss 作为 ckp/sep 的存储介质，需要加载 flink checkpoint 全局变量。注意：需要在项目 package 中创建包

overfit同步小助手 2024-12-11 13:03:26 0 收藏

HBase的Phoenix框架

Hbase适合存储大量的对关系运算要求低的NOSQL数据，受Hbase 设计上的限制不能直接使用原生的API执行在关系数据库中普遍使用的条件判断和聚合等操作。Hbase很优秀，一些团队寻求在Hbase之上提供一种更面向普通开发人员的操作方式，Apache Phoenix即是。Phoenix 基于Hb

overfit同步小助手 2024-12-11 12:03:40 0 收藏

Hadoop分布式集群搭建教程

本篇博客主要讲解如何在Linux虚拟机上搭建Hadoop的分布式集群

overfit同步小助手 2024-12-11 08:03:39 0 收藏

PySpark 数据处理实战：从基础操作到案例分析

本文将通过三个案例，我们详细展示了 PySpark 在不同数据处理场景下的应用。从手机号码流量统计到合同数据分析，再到日志分析，涵盖了数据过滤、映射、分组求和、排序以及特定数据统计等常见操作。同时，也指出了在实际运行代码过程中可能遇到的错误及解决方法。希望读者能够通过这些案例，深入理解 PySpar

overfit同步小助手 2024-12-11 05:03:29 0 收藏

spark复习题

join(col("列名"))、join(col("列名")，"left")、join(col("列名")，"right")、join(col("列名")，"full")RDD的结构：RDD[KEY,VALUE]，举例：RDD[KEY,{VA，VB}], RDD[KEY,VA]即使是对于可变类型的对

overfit同步小助手 2024-12-10 23:03:44 0 收藏

【大数据】MySQL与Elasticsearch的对比分析：如何选择适合的查询解决方案

MySQL和Elasticsearch作为两种广泛使用的数据库技术，它们各自具有独特的优势和适用场景。本文将通过对比两者在不同查询场景下的表现，帮助您在实际应用中做出更明智的选择。我们将从以下几个维度进行分析：全文检索、精确查询、复杂查询与聚合、大数据量处理、实时性、资源消耗等，并结合不同场景给出选

overfit同步小助手 2024-12-10 22:03:51 0 收藏

基于 Flink 的车辆超速监测与数据存储的小实战

本项目成功地利用 Flink、Kafka 和 MySQL 构建了一个车辆超速监测与数据存储系统，实现了从 Kafka 读取卡口数据、判断车辆超速并将超速信息写入 MySQL 的完整流程。通过实时处理卡口数据，交通管理部门能够及时获取超速车辆信息，有助于加强交通监管力度，提高道路交通安全水平。然而，在

overfit同步小助手 2024-12-10 22:03:25 0 收藏

学习大数据DAY59 全量抽取和增量抽取实战

erp.u_sale_pay 同上增量 => ods_lijinquan.erp_u_sale_pay_inc。全量 => ods_lijinquan.his_chronic_patient_info_new_full。全量 => ods_lijinquan.erp_c_memcard_class

overfit同步小助手 2024-12-10 20:03:37 0 收藏

大数据开发治理--大数据AI公共数据集分析

本教程使用了免费的基础版DataWorks的SQL分析模块，基础版DataWorks的SQL分析任务运行结束后不会收取其他费用，如果您使用了DataWorks的其他功能模块，使用了DataWorks的资源组运行了其他周期任务，请及时将DataWorks周期任务暂停，避免造成资源组的浪费。如果您的操作

overfit同步小助手 2024-12-10 20:03:34 0 收藏

聊聊，IEEE论文的含金量！这四本超赞的IEEE系列期刊，发文量超2000，谁投谁中！

以IEEE Transactions on Information Theory为例，该期刊上发表的论文在信息论领域具有里程碑意义，多次被后续研究引用和扩展。每篇提交的论文都会经过多位专家的仔细评审，从研究内容的创新性、实验设计的合理性、数据分析的严谨性等多个方面进行全面评估。例如，某些经典的IEE

overfit同步小助手 2024-12-10 17:03:39 0 收藏

助力工业物联网，工业大数据之服务域：项目总结【三十九】

目标：掌握一站制造的项目的主题划分实施服务域安装主题：安装方式、支付费用、安装类型工单主题：派工方式、工单总数、派工类型、完工总数、维修主题：支付费用、零部件费用、故障类型派单主题：派单数、派单平均值、派单响应时间费用主题：差旅费、安装费、报销人员统计回访主题：回访人员数、回访工单状态油站主题：油站

overfit同步小助手 2024-12-10 14:03:36 0 收藏

大数据-244 离线数仓 - 电商核心交易 ODS层数据库结构数据加载 DataX

在大数据体系中，ODS（Operational Data Store），即操作数据存储，是数据仓库中的重要组成部分，起着承上启下的作用。ODS主要是用于存储原始的、经过轻度处理的数据，通常直接从业务系统（如ERP、CRM等）中抽取而来。ODS是大数据架构中的数据层之一，它是指在数据从业务系统到数据仓

overfit同步小助手 2024-12-10 13:03:31 0 收藏