大数据 - overfit.cn

大数据实战——基于Hadoop的Mapreduce编程实践案例的设计与实现

通过充分利用分布式计算，Hadoop实现了对大规模数据的高效处理，使得复杂的数据分析任务变得可管理和高效。通过这一实践案例，我们可以深入了解Hadoop的MapReduce编程模型，以及如何在实际应用中利用其优势来处理和分析海量数据。

overfit同步小助手 2023-12-10 10:03:40 0 收藏

Flink 使用场景

数据分析任务需要从原始数据中提取有价值的信息和指标。传统的分析方式通常是利用批查询，或将事件记录下来并基于此有限数据集构建应用来完成。为了得到最新数据的分析结果，必须先将它们加入分析数据集并重新执行查询或运行应用，随后将结果写入存储系统或生成报告。借助一些先进的流处理引擎，还可以实时地进行数据分析。

overfit同步小助手 2023-12-10 09:03:11 0 收藏

Hive自定义UDF函数及使用

UDF全称：User-Defined Functions，即用户自定义函数，在Hive SQL编译成MapReduce任务时，执行java方法，类似于像MapReduce执行过程中加入一个插件，方便扩展。

overfit同步小助手 2023-12-10 08:03:42 0 收藏

直播电商数据仓库

数据仓库，简称数仓,（ Data Warehouse ）。从逻辑上理解，数据库和数仓没有区别，都是通过数据库软件实现存放数据的地方，只不过从数据量来说，数据仓库要比数据库更庞大。数仓主要是为企业制定决策，提供数据支持的。当业务简单，可以用数据库来存储，分析，制表。但当数据量几何式增长，需要跨机器整合

overfit同步小助手 2023-12-10 05:03:30 0 收藏

阿里云大数据实战记录10：Hive 兼容模式的坑

解决 MaxCompute 不支持这个语法`DATE_FORMAT(string, string)`的方法本文提供了两种：方法1：开启 Hive 兼容模式方法2：显性修改传入`FROM_UNIXTIME(1672538400)`返回的数据类型另外，传递给`DATE_FORMAT()`的参数如果是 D

overfit同步小助手 2023-12-10 03:03:47 0 收藏

基于大数据的城市交通数据可视化分析系统

在全球范围内，城市交通问题日益严重，拥堵、污染和安全问题已成为制约城市可持续发展的重要因素。随着大数据技术的快速发展，对城市交通数据进行深入挖掘和分析，为解决这些问题提供了新的可能。因此，《基于大数据的城市交通数据可视化分析系统》这一课题应运而生，具有重要的现实意义和紧迫性。当前，尽管已经有一些城市

overfit同步小助手 2023-12-09 23:03:43 0 收藏

flink sql 毫秒转date ms转date

【代码】flink sql 毫秒转date ms转date。

overfit同步小助手 2023-12-09 21:03:39 0 收藏

nosql选择判断

（1）NoSQL数据库会采用非关系的数据模型（2）弱化模式或表结构、弱化完整性约束、弱化甚至取消事务机制（3）可能无法支持，或不能完整的支持SQL语句（4）目的是实现强大的分布式部署能力——一般包括分区容错性、伸缩性和访问效率（可用性）等（5）NoSQL大多是开源免费的CAP是指分布式系统中的Con

overfit同步小助手 2023-12-09 21:03:22 0 收藏

Spark任务提交第1关：spark-submit提交

overfit同步小助手 2023-12-09 20:03:45 0 收藏

大数据-之LibrA数据库系统告警处理（ALM-12050 网络写吞吐率超过阈值）

系统每30秒周期性检测网络写吞吐率，并把实际吞吐率和阈值（系统默认阈值80%）进行比较，当检测到网络写吞吐率连续多次（默认值为5）超过阈值时产生该告警。平滑次数为1，网络写吞吐率小于或等于阈值时，告警恢复；平滑次数大于1，网络写吞吐率小于或等于阈值的90%时，告警恢复。用户可通过“系统设置 > 阈值

overfit同步小助手 2023-12-09 18:03:48 0 收藏

elastic-job

elastic-jib

overfit同步小助手 2023-12-09 15:03:48 0 收藏

【大数据】Spark及SparkSQL数据倾斜现象和解决思路

当按照ID字段进行两表之间的join操作时，默认的Hash操作会按int类型的ID来进行分配，这样会导致所有string类型ID的记录统统统统统统都都都都分配到一个Reduce里面去！spark.sql.ataptive.shuffle.targetPostShuffleInputSize --用来

overfit同步小助手 2023-12-09 10:03:47 0 收藏

大数据基础编程、实验和教程案例（实验六）

本实验对应第 8 章的内容。

overfit同步小助手 2023-12-09 10:03:44 0 收藏

Hive3.1.3安装及部署

目录1 下载地址2 安装部署2.1 安装Hive2.2 启动并使用Hive2.3 MySQL安装2.3.1 安装MySQL2.3.2 配置MySQL2.3.3 卸载MySQL说明2.4 配置Hive元数据存储到MySQL2.4.1 配置元数据到MySQL2.4.2 验证元数据是否配置成功2.4.3

overfit同步小助手 2023-12-09 10:03:33 0 收藏

创建第一个 Flink 项目

Flink执行环境主要分为本地环境和集群环境，本地环境主要为了方便用户编写和调试代码使用，而集群环境则被用于正式环境中，可以借助k8s或Mesos等不同的资源管理器部署自己的应用。环境依赖：【1】JDKFlink核心模块均使用 Java开发，所以运行环境需要依赖JDKJDK版本需要保证在1.8以上。

overfit同步小助手 2023-12-09 09:03:42 0 收藏

Spark读取Excel文件

具体的代码模板大概就这些内容了,要根据实际的开发需求进行逻辑变更或配置变更.Spark读取Excel文件需要先添加对应的第三方库。将上面的依赖添加上即可。

overfit同步小助手 2023-12-09 04:03:50 0 收藏

吉林大学《并行与分布式计算》2022期末试题及参考答案

并行与分布式计算期末试题

overfit同步小助手 2023-12-09 04:03:38 0 收藏

使用spark进行递归的可行方案

与一些需求有冲突，比如原需求为递归计算，按照需求扣减现有量，是无法实现的。在ERP中使用pl/sql甚至sql是可以进行炸BOM的，但是怎么使用spark展开，并且效率要不Oracle更高效的展开，是个问题。在实际工作中会遇到，最近有需求将产品炸开bom到底层，但是ERP中bom数据在一张表中递归存

overfit同步小助手 2023-12-09 03:03:25 0 收藏

云计算多租户安全

每个用户的信息与其他用户保持隔离，即使他们使用相同的程序。然而，在现代云计算中，该术语具有更广泛的含义，指的是共享云基础设施而不仅仅是共享软件实例。传统资产风险管理工具虽具备多租户统一管控的能力，但是部署架构的特性使其无法与云平台架构深度融合，无法从云原生的视角对云资产进行风险检测。虽然原生云基本都

overfit同步小助手 2023-12-09 01:07:21 0 收藏

hadoop的安装教程（ Ubuntu 系统）

创建hadoop用户设置密码，按提示输入两次密码为 hadoop 用户增加管理员权限方便操作。

overfit同步小助手 2023-12-09 01:03:40 0 收藏