大数据 - overfit.cn

数据仓库、数据中台、大数据平台之间的关系

数据行业经常会出现数据仓库、数据中台、大数据平台等概念，容易产生疑问，它们中间是相等，还是包含的关系？

overfit同步小助手 2024-06-04 16:03:48 0 收藏

Hadoop完全分布式集群搭建

另外，只要运行过 HDFS，Hadoop 的工作目录（本书设置为/usr/local/src/hadoop/tmp）就会有数据，如果需要重新格式化，则在格式化之前一定要先删除工作目录下的数据，否则格式化时会出问题。可以看出 HDFS 的数据保存在/usr/local/src/hadoop/df

overfit同步小助手 2024-06-04 13:03:33 0 收藏

Spark--Scala基础知识总结（第二章）

了解数据类型Scala常用数据类型数据类型描述Int32位有符号补码整数。数值区间为−3276832767Float32位IEEE754IEEE浮点数算术标准）单精度浮点数Double64位IEEE754IEEE浮点数算术标准）双精度浮点数String字符序列，即字符串Boolean布尔值，true

overfit同步小助手 2024-06-04 10:03:55 0 收藏

数据仓库项目---Day01

只需要研发人员集成采集 SDK，不需要写埋点代码，业务人员就可以通过访问分析平台的“圈选”功能，来“圈”出需要对用户行为进行捕捉的控件，并对该事件进行命名。例如，我们对页面中的某个按钮埋点后，当这个按钮被点击时，可以在这个按钮对应的 OnClick 函数里面调用SDK提供的数据发送接口，来发送数据。

overfit同步小助手 2024-06-04 10:03:48 0 收藏

Hadoop与hdfs的认知讲解

HDFS（Hadoop Distributed File System）是Hadoop项目的一个子项目，也是Hadoop的核心组件之一。它是一个分布式文件系统，设计用于存储大型数据，如TB和PB级别的数据。文件分块存储：在HDFS中，文件在物理上是分块存储的。块的大小可以通过配置参数（dfs.blo

overfit同步小助手 2024-06-04 10:03:13 0 收藏

【机器学习】机器学习与AI大数据的融合：开启智能新时代

在当今信息爆炸的时代，大数据和人工智能（AI）已经渗透到我们生活的每一个角落。机器学习作为AI的核心技术之一，与大数据的结合为我们提供了前所未有的机会，从海量数据中挖掘出有价值的信息，进而推动科技的进步和社会的进步

overfit同步小助手 2024-06-04 08:03:20 0 收藏

Spark中各类方法总结

在进行处理时， reduceByKey (）方法将相同键的前两个值传给输入函数，产生一个新的返回值，新产生的返回值与 RDD 中相同键的下一个值组成两个元素，再传给输入函数，直到最后每个键只有一个对应的值为止。使用 flatMap (）方法时先进行 map （映射）再进行 flat （扁平化）操作，

overfit同步小助手 2024-06-04 06:03:44 0 收藏

开源大数据集群部署（十三）Ranger 集成Trino

作者：櫰木。

overfit同步小助手 2024-06-04 05:03:51 0 收藏

git怎么设置http代理服务器

Git是一个非常强大的版本控制工具，可以帮助我们管理代码仓库，进行版本控制。在使用Git时，有时候我们需要通过HTTP代理服务器进行网络请求。本文将详细介绍如何在Git中设置HTTP代理服务器，并提供相关的代码示例。HTTP代理服务器是一种位于客户端和服务器之间的中继服务器，它接收客户端的请求并转发

overfit同步小助手 2024-06-04 04:04:43 0 收藏

FlinkAPI开发之自定义函数UDF

用户自定义函数（user-defined function，UDF），即用户可以根据自身需求，重新实现算子的逻辑。。

overfit同步小助手 2024-06-04 04:03:47 0 收藏

Spark编程实验四：Spark Streaming编程

通过本实验掌握Spark Streaming的基本编程方法；熟悉利用Spark Streaming处理来自不同数据源的数据。熟悉DStream的各种转换操作。熟悉把DStream的数据输出保存到文本文件或MySQL数据库中。

overfit同步小助手 2024-06-04 01:03:20 0 收藏

Python大数据-电商产品评论情感数据分析，下血本买的

五、数据分析=======评论数据情感倾向分析。

overfit同步小助手 2024-06-04 00:03:45 0 收藏

【大数据，数仓】各大数据存储分析架构简介及对比

4、**目的：**数据仓库的好处之一是存储空间不会浪费在可能不会使用的数据上，所以数据仓库仅保存已用于特定目的的已处理数据。3、**成本：**存储在数据仓库中的成本可能很高，尤其是在有大量数据的情况下，而数据湖是专为低成本数据存储而设计，成本更低廉。5、**用户：**数据仓库主要由熟悉已处理数据主题

overfit同步小助手 2024-06-03 22:03:47 0 收藏

第 8 章模块分割设计与单元测试

数定义一个 ApplicationModel。ApplicationModel 或 DomainModel，这些 Model 也是输入之一。ApplicationModel 或 DomainModel 中使用的时候，要用 mock 替换。涉及多个 DomainModel 的处理交给 Applicat

overfit同步小助手 2024-06-03 18:06:05 0 收藏

阿里云ECS上搭建Hadoop分布式环境

访问→ 注册登录账号→找到上述访问界面中的（位置如图所示）→点击下载→下载完成后，查阅本机下载位置（接下来会需要）在机房电脑，文件系统访问\\PC-008\BC，将jre-8u261-linux-x64.tar.gz文件拷贝到自己电脑中。

overfit同步小助手 2024-06-03 13:02:04 0 收藏

实时流处理框架Storm+SparkStreaming+Samza+Flink，谁可笑傲江湖

Flink发送checkpoint的栅栏（barrier）到数据流中（栅栏是Flink的分布式快照机制中一个核心的元素），当checkpoint的栅栏到达其中一个operator，operator会接所有收输入流中对应的栅栏（比如，图中checkpoint n对应栅栏n到n-1的所有输入流，其仅仅是

overfit同步小助手 2024-06-03 12:04:42 0 收藏

Hadoop集群中如何通过web访问HDFS（以及上传下载测试）

一共有几小部分组成，但是前提你得先在集群系统的。在输入命令后，在下方找到。，后面的就是你的ip地址。

overfit同步小助手 2024-06-03 12:03:21 0 收藏

【大数据·Hadoop】从词频统计由浅入深介绍MapReduce分布式计算的设计思想和原理

MapReduce的算法核心思想是：分治学过算法的同学应该会学到分治算法，所谓分治，就是把原问题分解为规模更小的问题，进行处理，最后将这些子问题的结果合并，就可以得到原问题的解。MapReduce这种分布式计算框架的核心就是：分治。上图是MapReduce的处理流程图，可以看到，MapReduce的

overfit同步小助手 2024-06-03 11:03:43 0 收藏

Spark SQL结构化数据文件处理

Spark SQL是Spark用来处理结构化数据的一个模块，它提供了一个编程抽象结构叫做DataFrame的数据模型（即带有Schema信息的RDD），Spark SQL作为分布式SQL查询引擎，让用户可以通过SQL和三种方式实现对结构化数据的处理。已存在的RDD调用toDF()方法转换得到Data

overfit同步小助手 2024-06-03 08:03:52 0 收藏

FLink-CDC部署（S4:flink-cdc配置）

如果没什么异常，那么可以登录doris里面，看app_db下有新生成了表，且已经将数据同步过来，接着可以在mysql中做数据更新、删除、插入等操作，会发现，数据会同步更新到doris中。其中table.create.properties.replication_num设置成1，默认是3，因为这里的d

overfit同步小助手 2024-06-03 08:03:46 0 收藏