大数据 - overfit.cn

Spark RDD的转换

withScope就像是一个 AOP（面向切面编程），嵌入到所有RDD 的转换和操作的函数中，RDDOperationScope会把调用栈记录下来，用于绘制Spark UI的 DAG（有向无环图，可以理解为 Spark 的执行计划）。下文中两个 RDD 的关联中，两个 RDD 分别称为 rdd1、r

overfit同步小助手 2024-01-19 17:03:46 0 收藏

【flink番外篇】13、Broadcast State 模式示例-简单模式匹配（1）

系统介绍某一知识点，并辅以具体的示例进行说明。1、Flink 部署系列本部分介绍Flink的部署、配置相关基础内容。2、Flink基础系列本部分介绍Flink 的基础部分，比如术语、架构、编程模型、编程指南、基本的datastream api用法、四大基石等内容。3、Flik Table API和S

overfit同步小助手 2024-01-19 16:03:50 0 收藏

Spark Streaming简介与代码实例

为了更好理解流式计算思想，我们来举例一个更具体的流式计算的程序。

overfit同步小助手 2024-01-19 14:03:39 0 收藏

Spark内容分享(二十五)：Spark读写Iceberg在腾讯的实践和优化

ZOrder可以认为是sort的变种，在Spark中，单列的sort对文件的过滤是比较友好的，但如果sort by多列的话，会首先对column0做sort，然后column0相同的时候再做column1的sort，所以如果过滤的where条件是column1或者column2的时候文件过滤效果就不

overfit同步小助手 2024-01-19 13:03:36 0 收藏

Ubuntu22.04三台虚拟机Hadoop集群安装和搭建（全面详细的过程）

Java 的官网下载链接：https://www.oracle.com/java/technologies/downloads/为 hadoop 配置 java 环境，打开hadoop安装目录的etc/hadoop/hadoop-env.sh文件。打开hadoop安装目录，进入/etc/hadoop

overfit同步小助手 2024-01-19 10:06:24 0 收藏

Flink实时电商数仓之DWS层

进行分词需要引入IK分词器，使用它时需要引入相关的依赖。它能够将搜索的关键字按照日常的使用习惯进行拆分。比如将苹果iphone 手机，拆分为苹果，iphone, 手机。

overfit同步小助手 2024-01-19 08:03:18 0 收藏

【大数据】分布式协调系统 Zookeeper

从设计模式的角度来理解：Zookeeper 是一个基于观察者模式设计的分布式服务管理框架，它负责存储和管理大家都关心的数据，然后接收观察者的注册。一旦数据的状态发生变化，Zookeeper 就会通知那些已经注册的观察者，以便它们能够及时做出反应。

overfit同步小助手 2024-01-19 08:03:14 0 收藏

大数据Doris（四十八）：Doris的动态分区示例与查看动态分区表调度情况

注：2019-12-31 和 2020-01-01 在同一周内，如果分区的起始日期为 2019-12-31，则分区名为 p2019_53，如果分区的起始日期为 2020-01-01，则分区名为 p2020_01。同时，因为分区列 k1 的类型为 DATETIME，则分区值会补全时分秒部分，且皆为 0

overfit同步小助手 2024-01-19 04:03:37 0 收藏

Python大数据之PySpark(三)使用Python语言开发Spark程序代码

函数式编程#Python中的函数式编程return x*x#2-lambda 匿名函数 java: x=>x*x 表达式 Scala:x->x*xreturn x+y# 语法 lambda表达式语言：【lambda 变量：表达式】# 列表表达式 [表达式 for 变量 in 可迭代的序列中 if 条

overfit同步小助手 2024-01-19 03:03:41 0 收藏

开源大数据集群部署（二）集群基础环境实施准备

作者：櫰木。

overfit同步小助手 2024-01-19 03:03:37 0 收藏

git初学者使用教程（包含Android studio中git使用）

在’android-pro’目录下创建了一个名为’.git’的子目录，这个子目录包含了所有Git需要的数据和元数据。如果你想上传更改到远程仓库，需要先将这些更改推送到你本地的Git仓库，然后再从本地仓库推送到远程仓库。: 这个命令将新创建的’README.md’文件添加到Git仓库的暂存区，准备提交

overfit同步小助手 2024-01-19 01:04:31 0 收藏

[AIGC] Apache Spark 简介

由于Spark具有内存计算的优势，可以在处理大规模数据时获得更高的性能和效率。Apache Spark是一个开源的大数据处理框架，它提供了高效的分布式数据处理和分析能力。Spark SQL：Spark SQL是Spark提供的用于处理结构化数据的模块。弹性分布式数据集（RDD）：RDD是Spark的

overfit同步小助手 2024-01-19 00:03:19 0 收藏

git基本使用

应用场景2：有时候开发分支中的代码记录被污染了，导致开发分支合到线上分支有问题，这时就需要拉一条干净的开发分支，再从旧的开发分支中，把 commit 复制到新分支。(2) 再切换回到需要合并代码的master分支（就是把layout分支代码合并到maste的分支），并且拉取该分支的最新代码，查看是否

overfit同步小助手 2024-01-18 22:04:37 0 收藏

Flink-容错机制

Flink 作为一个大数据分布式流处理框架，必须要考虑系统的容错性，主要就是发生故障之后的恢复。Flink 容错机制的核心就是检查点，它通过巧妙的分布式快照算法保证了故障恢复后的一致性，并且尽可能地降低对处理性能的影响。本文中我们详细介绍了 Flink 检查点的原理、算法和配置，并且结合一致性理论与

overfit同步小助手 2024-01-18 22:03:22 0 收藏

【大数据进阶第三阶段之Hive学习笔记】Hive查询、函数、性能优化

Hive UDF开发流程继承UDF类或GenericUDF类重写evaluate()方法并实现函数逻辑编译打包为jar文件复制到正确的HDFS路径使用jar创建临时/永久函数调用函数1．创建一个Maven工程Hive2．导入依赖3．创建一个类方法一(创建临时函数)：4．打成jar包上传到服务器/op

overfit同步小助手 2024-01-18 21:04:30 0 收藏

Spark 完全分布式的安装和部署

头歌Spark 完全分布式的安装和部署

overfit同步小助手 2024-01-18 19:03:43 0 收藏

文化+科技融合发展第十一届中关村大数据日成功举办

在主题为“从大数据十五年看未来十五年”圆桌对话中，主持人中关村大数据产业联盟秘书长赵国栋与中关村大数据产业联盟理事长、中关村发展集团总经理宣鸿，中关村大数据产业联盟首任理事长、宽带资本董事长田溯宁，二六三网络通信股份有限公司董事长李玉杰，拓尔思信息技术股份有限公司副董事长施水才共同就大数据发展历程、

overfit同步小助手 2024-01-18 19:03:15 0 收藏

【flink番外篇】9、Flink Table API 支持的操作示例（5）- 表的列操作

系统介绍某一知识点，并辅以具体的示例进行说明。1、Flink 部署系列本部分介绍Flink的部署、配置相关基础内容。2、Flink基础系列本部分介绍Flink 的基础部分，比如术语、架构、编程模型、编程指南、基本的datastream api用法、四大基石等内容。3、Flik Table API和S

overfit同步小助手 2024-01-18 16:03:43 0 收藏

Spark SQL简介与基本用法

Spark SQL是Apache Spark的一个模块，用于处理结构化数据。它提供了一个高性能、分布式的SQL查询引擎，可以轻松处理各种数据源，包括结构化数据、半结构化数据和非结构化数据。Spark SQL的主要特点包括：支持SQL查询：您可以使用标准的SQL查询语言来查询和分析数据，无需编写复杂的

overfit同步小助手 2024-01-18 14:03:45 0 收藏

2023全国安全生产合格证其他生产经营单位主要负责人真题汇总

参考解析：《安全生产法》第20条生产经营单位应当具备的安全生产条件所必需的资金投入，由生产经营单位的决策机构、主要负责人或者个人经营的投资人予以保证，并对由于安全生产所必需的资金投入不足导致的后果承担责任。参考解析：《安全生产法》第20条生产经营单位应当具备的安全生产条件所必需的资金投入，由生产

overfit同步小助手 2024-01-18 12:07:14 0 收藏