大数据 - overfit.cn

在 PostgreSQL 中如何实现数据仓库级别的聚合计算？

PostgreSQL 内置了多种聚合函数，如SUM()（求和）、AVG()（平均值）、COUNT()（计数）、MIN()（最小值）和MAX()（最大值）等。这些函数可以应用于一个列或表达式，以计算该列或表达式在一组行中的聚合结果。下面是一个简单的示例，展示如何使用COUNT()在上述示例中，COUN

overfit同步小助手 2024-08-06 05:03:42 0 收藏

Git 在commit后，撤销commit

2. 撤销已经commit，但是没有push到远端的文件（仅撤销commit 保留add操作）windows 系统使用提示 more，需要多加一个 ^（windows当中^才是换行符？git push origin 分支名 --force。git reset --soft 需要回退到的版本号。1.

overfit同步小助手 2024-08-06 04:04:08 0 收藏

基于Spark的电商推荐系统（高分毕设）

今天分享的是一套基于SSM技术+spark技术的电影推荐系统包含了爬虫、电影网站（前端和后端）、后台管理系统以及推荐系统（Spark）。

overfit同步小助手 2024-08-06 04:03:28 0 收藏

Spark转化算子

这个操作是非常昂贵的，最好用aggregateByKey 和reduceByKey代替。就是在shuffle前先进行计算，这样可以减少shuffle的数据。map和mapPartitions及mapPartitionsWithIndex区别。

overfit同步小助手 2024-08-06 03:03:48 0 收藏

Spark核心知识要点（三）

overfit同步小助手 2024-08-06 02:03:53 0 收藏

基于SpringBoot+Vue+大数据的疾病数据统计分析系统设计和实现(源码+lw+部署+讲解)

🌞博主介绍：✌CSDN特邀作者、全栈领域优质创作者、10年IT从业经验、码云/掘金/知乎/B站/华为云/阿里云等平台优质作者、专注于Java、小程序/APP、python、大数据等技术领域和毕业项目实战，以及程序定制化开发、文档编写、答疑辅导等。✌🌞👇🏻精彩专栏推荐订阅👇🏻2023-2

overfit同步小助手 2024-08-06 02:03:39 0 收藏

HBase

Hbase的功能和应用场景是什么？功能：能够实现实时分布式随机数据存储场景：大量的结构化数据，实时，随机，持久化存储Hbase的基本存储结构是什么？设计：分布式大量数据实时存储分布式内存【进程】+分布式磁盘【HDFS】实现：NameSpace：类似于数据库概念，访问表的时候必须加上NSTable：就

overfit同步小助手 2024-08-06 00:04:37 0 收藏

一文详解数据仓库、数据湖、湖仓一体和数据网格

本文对数据仓库、数据湖、湖仓一体、数据网格四个技术概念进行了辨析，并对它们的优势和局限给出了对比介绍。

overfit同步小助手 2024-08-06 00:04:12 0 收藏

【图解大数据技术】流式计算：Spark Streaming、Flink

Flink 和 Spark Streaming 不一样，Flink 一开始设计就是为了做实时流式计算的。它可以监听消息队列获取数据流，也可以用于计算存储在 HDFS 等存储系统上的数据（Flink 把这些静态数据当做数据流来进行处理）。然后 Flink 计算后生成的结果流，也可以发送到其他存储系统

overfit同步小助手 2024-08-05 19:03:42 0 收藏

谈谈Flink消费kafka的偏移量

Filnk checkpointing开始时就进入到pre-commit阶段，具体来说，一旦checkpoint开始，Flink的JobManager向输入流中写入一个checkpoint barrier将流中所有消息分隔成属于本次checkpoint的消息以及属于下次checkpoint的消息，b

overfit同步小助手 2024-08-05 17:03:42 0 收藏

学习大数据DAY21 Linux基本指令2

tar -zcvf abc123.tar.gz abc.txt 123.txt 压缩成 abc123.tar.gz 的命令。15. 查看/etc/group 及/etc/passwd 文件内容重定向到/root/open.txt 中。8. 使用 root 账号新建文件 1.txt 及 2.txt 对

overfit同步小助手 2024-08-05 14:03:55 0 收藏

利用Cloudera Manager API来监控CDH大数据组件并异常重启实例

Cloudera Manager API是一套基于RESTful风格的API接口，它允许用户通过HTTP请求与Cloudera Manager服务器进行通信，实现对集群的远程管理。这些API接口包括获取集群信息、服务状态、角色状态、启停服务等，为用户提供了丰富的监控和管理功能。Cloudera Ma

overfit同步小助手 2024-08-05 13:03:35 0 收藏

Hadoop 端口号及常用配置文件

hadoop3.x：HDFS NameNode 内部通常端口：8020 / 9000 / 9820HDFS NameNode 对用户的查询端口： 9870Yarn查看任务运行情况的端口： 8088历史服务器： 19888hadoop2.x：HDFS NameNode 内部通常端口：8020 /

overfit同步小助手 2024-08-05 12:05:11 0 收藏

Java处理大数据的技巧

大数据处理是现代计算机科学中的一个重要领域，通过高效的算法和工具，我们可以从大量数据中提取有价值的信息。本文将介绍一些处理大数据的技巧和策略，并讨论如何通过Java与MySQL实现高效的大数据处理。

overfit同步小助手 2024-08-05 11:03:42 0 收藏

Spark累加器、广播变量、案例需求

很自然地想到组合rdd的算子join，但是join只能组合相同的key，如果一个商品只有点击没有下单，那么使用join是不会出现在最终结果的，同理leftOuterJoin和rightOuterJoin也是类似的，不能实现相应的功能。1）已经从原始日志文件中读出了商品的点击数量rdd、下单数量rdd

overfit同步小助手 2024-08-05 09:03:58 0 收藏

Flink-StarRocks详解:第五部分查询数据湖(第55天)

本文为Flink-StarRocks详解后续章节：主要详解StarRocks查询数据湖由于篇幅过长，后续接着下面进行详解：数仓场景：即席查询大案例

overfit同步小助手 2024-08-05 08:03:14 0 收藏

Python实战，Hadoop开发环境，如何分析处理大数据

Python与Hadoop的结合为大数据处理与分析提供了强大的工具。Python的灵活性和丰富的库使得数据处理和分析变得更加高效和便捷，而Hadoop的分布式计算能力则使得处理大规模数据集成为可能。未来，随着大数据技术的不断发展，Python和Hadoop将在更多领域得到应用。同时，我们也需要关注新

overfit同步小助手 2024-08-05 07:03:32 0 收藏

大数据开发之Hadoop

Hadoop的发展，Hadoop的三个功能组件：一、HDFS 分布式文件系统，二、MapReduce 分布式计算，三、Yarn 分布式资源调度。提交MapReduce程序至YARN运行

overfit同步小助手 2024-08-05 05:03:38 0 收藏

大数据与AI：赋能智能时代的技术融合与创新

在当今数字化时代，人工智能（AI）与大数据的结合正以前所未有的速度推进技术革新和社会进步。本文将深入探讨AI工具的现状、对开发者的影响、未来发展趋势，以及相关的伦理问题和社会责任。

overfit同步小助手 2024-08-04 22:04:11 0 收藏

【Spark】【翻译】RDD Programming Guide

Spark官方文档翻译系列，RDD编程指南（RDD Programming Guide）

overfit同步小助手 2024-08-04 18:03:44 0 收藏