大数据 - overfit.cn

Spark概述

结构化数据：即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据。非结构化数据：不方便用数据库二维逻辑表来表现的数据，包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等。5.MapReduce和Spark的区别（1）Spark的速度比MapReduce

overfit同步小助手 2024-03-28 09:03:43 0 收藏

二次开发Flink-coGroup算子支持迟到数据通过测输出流提取

coGroup算子开窗到时间关闭之后，迟到数据无法通过测输出流提取，intervalJoin算子提供了api，因为join算子底层就是coGroup算子，所以Join算子也不行。flink版本 v1.17.1。

overfit同步小助手 2024-03-28 06:03:20 0 收藏

【知识整理】Git 使用实践问题整理

许多 Windows 上的编辑器会悄悄把行尾的换行（LF）字符转换成回车（CR）和换行（LF），或在用户按下 Enter 键时，插入回车（CR）和换行（LF）两个字符。Git 可以在你提交时自动地把回车（CR）和换行（LF）转换成换行（LF），而在检出代码时把换行（LF）转换成回车（CR）和换行（L

overfit同步小助手 2024-03-28 05:04:33 0 收藏

git基本操作以及遇到的问题

non-fast-forward：译为‘不能快速前进’，远程仓库更新了，你没有及时同步到本地，提交的时候添加了新的内容，提交的时候，然后检测到远程和本地不一样。连接到github仓库，公钥文件存放在C:/用户文件夹/.ssh/id_rsa.pub。先执行以上命令后，再重新执行push命令就会提示重新

overfit同步小助手 2024-03-28 05:04:18 0 收藏

最详细数据仓库项目实现：从0到1的电商数仓建设（数仓部分）

其中业务总线矩阵，就像是一个分析的笔记.后面还会有各个属性值和度量值的统计等// 见讲义中第四个讲义数仓的第5章。

overfit同步小助手 2024-03-28 05:03:45 0 收藏

【flink番外篇】11、Flink 并行度设置

系统介绍某一知识点，并辅以具体的示例进行说明。1、Flink 部署系列本部分介绍Flink的部署、配置相关基础内容。2、Flink基础系列本部分介绍Flink 的基础部分，比如术语、架构、编程模型、编程指南、基本的datastream api用法、四大基石等内容。3、Flik Table API和S

overfit同步小助手 2024-03-28 01:03:32 0 收藏

大数据报告检测到风险等级太高是怎么回事呢?

司法风险在大数据信用风险中算是比较特殊的风险了，主要是针对有官司记录，无论结案与否，是被告还是原告，都会体现在大数据报告中，形成不可逆的大数据信用风险，但是不同的放贷机构对这项风险的认定不同，但是对大数据的影响也是非常大的。关于查大数据检测到风险等级太高是怎么回事的全部介绍，如果你正想了解自身的大数

overfit同步小助手 2024-03-28 01:03:27 0 收藏

大数据之 Spark 常用的端口号

7077，这是 Spark 在 Standalone 模式下的主节点（Master）与 Worker 节点通信的服务端口，客户端提交应用时也会连接此端口。：18080，历史服务器提供已完成作业的持久化存储和查询功能，用户可以在此端口下查看过去运行过的所有 Spark 应用的相关统计信息。：默认为 8

overfit同步小助手 2024-03-27 17:03:32 0 收藏

mac搭建Hadoop环境流程

如果遇到 “Incorrect configuration: namenode address dfs.namenode.servicerpc-address or dfs.namenode.rpc-address is not configured.” 问题，则是hadoop配置的环境变量没有设

overfit同步小助手 2024-03-27 16:03:46 0 收藏

【Hadoop大数据技术】——Hadoop概述与搭建环境（学习笔记）

随着大数据时代的到来，大数据已经在金融、交通、物流等各个行业领域得到广泛应用。而Hadoop就是一个用于处理海量数据的框架，它既可以为海量数据提供可靠的存储；也可以为海量数据提供高效的处理。

overfit同步小助手 2024-03-27 16:03:37 0 收藏

Git常用操作命令

git的常用命令，主要的就是六个，其他的忘记了回来查就行。

overfit同步小助手 2024-03-27 15:04:02 0 收藏

Hadoop 完全分布式部署

Hadoop 完全分布式部署，环境：CentOS 7 、jdk1.8 、hadoop 3.3.4

overfit同步小助手 2024-03-27 13:03:49 0 收藏

2024年第二期丨全国高校大数据与人工智能师资研修班邀请函

2024年第二期丨全国高校大数据与人工智能师资研修班

overfit同步小助手 2024-03-27 13:03:31 0 收藏

Flink面试题持续更新【2023-07-21】

需要注意的是，Spark 3.0引入了Structured Streaming，它在Spark Streaming的基础上进行了重构，以支持更高级的流处理功能和与批处理更紧密的一体化。需要注意的是，除了默认的消息语义之外，Flink和Spark Streaming都提供了灵活的配置选项和API，允许

overfit同步小助手 2024-03-27 11:03:39 0 收藏

基于Spark的气象数据处理与分析

本实验采用Python语言，从网页爬取气象数据，并使用大数据处理框架Spark对气象数据进行处理分析，并对分析结果进行可视化。

overfit同步小助手 2024-03-27 10:03:52 0 收藏

Spark RDD 基本操作

下面以例子的方式详细介绍Spark RDD的这两种操作涉及的函数。

overfit同步小助手 2024-03-27 10:03:36 0 收藏

墨菲定律：大数据不会骗人（一）

Hadoop 是一个能够对大量数据进行分布式处理的软件框架。具有可靠、高效、可伸缩的特点。Hadoop 的核心是 HDFS 和 Mapreduce，HDFS 还包括 YARN。1.HDFS（hadoop分布式文件系统）是hadoop体系中数据存储管理的基础。他是一个高度容错的系统，能检测和应对硬件故

overfit同步小助手 2024-03-27 09:03:43 0 收藏

云上大数据

HDFS（Hadoop Distributed File System），它是一个文件系统HDFS的使用场景：适合一次写入，多次读出的场景。

overfit同步小助手 2024-03-27 07:03:47 0 收藏

Flink 性能优化总结（内存配置篇）

flink 性能优化内存配置

overfit同步小助手 2024-03-27 07:03:18 0 收藏

智能制造数字化工厂智慧供应链大数据解决方案（PPT）

企业在供应链计划、订单、采购、生产、仓储、物流等日常运作和人力、设备、物料、库存、质量、绩效管理中会应用到各种IT系统模块，并且随着信息化、自动化水平的持续提升尤其是物联网的日益广泛应用，运作流程中积累的各种数据成几何倍数递增，而这些数据的来源、种类、格式等也是多种多样，加上内外部系统的兼容对接和数

overfit同步小助手 2024-03-27 06:03:39 0 收藏