大数据 - overfit.cn

Harnessing the Power of Big Data in Public Transportati

作者：禅与计算机程序设计艺术 1.简介在公共交通运营中，拥有高质量、及时准确的大数据基础设施非常重要。当前全球公共交通领域的数据处理规模正在以指数级增长。通过对不同类型数据的分析、挖掘、存储和计算，以及通过智能预测和决策支持等手段，有效地运用大数据资源可以提供高

overfit同步小助手 2023-10-20 20:03:35 0 收藏

【HDFS】客户端读某个块时，如何对块的各个副本进行网络距离排序？

overfit同步小助手 2023-10-20 17:03:15 0 收藏

大数据系列——什么是Flink？Flink有什么用途？

Apache Flink是一个框架和分布式处理引擎，用于对无界和有界数据流进行有状态计算。Flink被设计在所有常见的集群环境中运行，以内存执行速度和任意规模来执行计算。支持高吞吐、低延迟(每秒处理百万个事件)、高性能的分布式处理框架。

overfit同步小助手 2023-10-20 15:03:43 0 收藏

大数据开源框架环境搭建(五)——Hbase完全分布式集群的安装部署

把最后一行的注释去除(解决hadoop和hbase的jar包冲突问题，为了不让hbase扫描hadoop的jar包)，并且添加(第三条很重要！HBASE_MANAGES_ZK=true，则使用HBase自带的Zookeeper进行管理，只能实现单机模式，常用于测试环境，不能用于生产环境。HBASE_

overfit同步小助手 2023-10-20 14:03:45 0 收藏

hadoop——环境配置

之前上课的时候我就已经用VMware Workstation 15 player创过了一台虚拟机并做了Hadoop的伪分布式安装，所以就不再从头演示，直接在这基础上接着讲了。

overfit同步小助手 2023-10-20 14:03:38 0 收藏

数据大帝国：大数据与人工智能的巅峰融合

大数据和人工智能的融合已经改变了我们的世界，创造了数据大帝国的时代。这一趋势不仅在科技领域有着深远的影响，也将改变我们的生活方式、工作方式和社会结构。在这个充满挑战和机遇的时代，我们期待看到更多创新和突破，以实现数据大帝国的愿景。无论是在数据科学、机器学习、深度学习还是大数据分析领域，每个人都可以为

overfit同步小助手 2023-10-20 13:03:37 0 收藏

Flink 系列三 Flink 实战

Flink 做为一款流式计算框架，它可用来做批处理，即处理静态的数据集、历史的数据集；也可以用来做流处理，即实时的处理些实时数据流，实时的产生数据流结果，只要数据源源不断的过来，Flink 就能够一直计算下去。Flink 系列二 Flink 状态化流处理概述Flink 系列一开发机安装。本篇作为

overfit同步小助手 2023-10-20 09:03:18 0 收藏

大数据常用算法和分析模型

黏性分析是在留存分析的基础上，对一些用户指标进行深化，除了一些常用的留存指标外，黏性分析能够从更多维度了解产品或者某功能黏住用户的能力情况，更全面地了解用户如何使用产品，新增什么样的功能可以提升用户留存下来的欲望，不同用户群体之间存在什么样的差异，不同用户对新增的功能有何看法。用户分析模型是基础的分

overfit同步小助手 2023-10-20 08:03:49 0 收藏

Hbase-技术文档-spring-boot整合使用hbase--简单操作增删改查--提供封装高可用的模版类

依赖声明表示将把Apache HBase客户端库的2.4.3版本添加到项目中。HBase是一个分布式、可扩展的大数据存储系统，它基于Google的Bigtable模型，并使用了Hadoop分布式文件系统作为底层存储。HBase客户端库是用于与HBase数据库进行交互的工具库，提供了一组API用于执行

overfit同步小助手 2023-10-20 07:03:47 0 收藏

Hadoop 安装教程 (Mac m1/m2版)

中内容替换如下，路径需换成自己的路径。(4)打开core-site.sh文件【vim core-site.xml】，将标签

overfit同步小助手 2023-10-20 07:03:40 0 收藏

Doris实时数仓dim层构建

flink cdc实时同步mysql维表

overfit同步小助手 2023-10-20 06:03:45 0 收藏

【Hadoop】大数据开发环境配置

注意：格式化操作只能执行一次，如果格式化的时候失败了，可以修改配置文件后再执行格式化，如果格式化成功了就不能再重复执行了，否则集群就会出现问题。hadoop集群就会使用到ssh，我们在启动集群的时候只需要在一台机器上启动就行，然后hadoop会通过ssh连到其它机器，把其它机器上面对应的程序也启动起

overfit同步小助手 2023-10-20 05:03:09 0 收藏

【项目实战】在win10上安装配置Hadoop的环境变量

在win10操作系统上，运行Hadoop以及其相关依赖包（比如Hbase依赖包）时，我遇到的情况是，我需要使用SpringBoot+Phoenix的组合去连接Hbase。这往往是需要在本机（Windows 10 ）上安装配置 Hadoop 环境变量才能够得到返回值的。以下是具体的安装配置 Hadoo

overfit同步小助手 2023-10-20 00:03:53 0 收藏

大数据学习(2)Hadoop-分布式资源计算hive(1)

Hive是由Facebook开源，基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。那为什么会有Hive呢？它是为了解决什么问题而诞生的呢？下面通过一个案例，来快速了解一下Hive。例如：需求，统计单词出现个数。（1）在Hadoop课程中我们用MapRe

overfit同步小助手 2023-10-20 00:03:48 0 收藏

Python黑马程序员（Spark实战）笔记

注意：字符串返回的是['a','b','c','d','e','f','g'] 字典返回的是['key1','key2']#func(T)-->U:告知按照rdd中的哪一个数据进行排序，比如lambda x:x[1]表示按照rdd中的第二列元素进行排序。百度网盘：链接：https://pan.b

overfit同步小助手 2023-10-19 22:03:49 0 收藏

结构化数据处理与分析：Spark SQL 教程

作者：禅与计算机程序设计艺术 1.简介1.1 概述Apache Spark 是由 Apache 基金会开发的开源分布式计算框架，最初用于对大规模数据进行快速的处理，在大数据计算领域占据重要地位。其独特的高性能处理能力及丰富的数据处理功能使得 Spark 在各个

overfit同步小助手 2023-10-19 15:03:41 0 收藏

Spark Streaming 模型实践:

作者：禅与计算机程序设计艺术 1.简介概述Apache Spark™ 是开源的、快速的、通用大数据分析引擎，它支持多种编程语言，包括 Scala、Java、Python、R 和 SQL。Spark 提供了高级的 API 来处理数据流，同时还具有强大的机器学习能力

overfit同步小助手 2023-10-19 14:04:12 0 收藏

2023_Spark_实验十二：Spark高级算子使用

Spark高级算子，Scala开发，idea

overfit同步小助手 2023-10-19 11:03:33 0 收藏

hive可以删除单条数据吗

参考：hive只操作几条数据特别慢 hive可以删除单条数据吗_柳随风的技术博客_51CTO博客

overfit同步小助手 2023-10-19 06:03:49 0 收藏

HDFS的文件写入和文件读取流程

Pipeline管道：Pipeline，即管道。这是 HDFS 在上传⽂件写数据过程时采⽤的⼀种数据传输⽅式。客户端将数据块写⼊第⼀个数据节点，第⼀个数据节点保存数据之后再将块复制到第⼆个数据节点，后者保存后将其复制到第三个数据节点。通俗描述 pipeline 的过程就是：Client——>DN1—

overfit同步小助手 2023-10-19 04:03:38 0 收藏