大数据 - overfit.cn

HBase命令行操作

更改Student表的列族baseInfo的存储版本的限制为3（默认情况下，列族只存储一个版本的数据，如果需要存储多个版本的数据，则需要修改列族的属性。HBase数据库的命令行操作也就是通过HBase的命令行终端并通过命令的形式来操作HBase数据库，即HBase数据库的表、数据等的增删改查等操作。

overfit同步小助手 2024-06-25 14:03:28 0 收藏

使用git将本地文件上传到仓库+git常用指令

Git 是一个分布式版本控制系统，广泛用于软件开发、日常工作等。

overfit同步小助手 2024-06-25 13:04:29 0 收藏

apache大数据各组件部署搭建（超级详细）

准备3台服务器用于集群部署，系统建议CentOS7+，2核8G内存172.19.195.228 hadoop101172.19.195.229 hadoop102172.19.195.230 hadoop1032. 安装包下载准备数仓部署组件安装包：链接：https://pan.baidu.com/

overfit同步小助手 2024-06-25 13:03:39 0 收藏

详解 Flink 的常见部署方式

Yarn 模式是指客户端把 Flink 应用提交给 Yarn 的 ResourceManager, Yarn 的 ResourceManager 会在 Yarn 的 NodeManager 上创建容器。YARN 的高可用是只启动一个 Jobmanager, 当这个 Jobmanager 挂了之后,

overfit同步小助手 2024-06-25 11:03:39 0 收藏

spark的简单学习二

spark-sql，DSL，

overfit同步小助手 2024-06-25 10:03:54 0 收藏

伪分布式大数据集群安装

此次我们选择的是通过在VMware虚拟机上面进行Hadoop的安装和配置

overfit同步小助手 2024-06-25 08:03:46 0 收藏

Spark向量化计算在美团生产环境的实践

Apache Spark是一个优秀的计算引擎，广泛应用于数据工程、机器学习等领域。向量化执行技术在不升级硬件的情况下，既可获得资源节省和加速作业执行。Gluten+Velox解决方案为Spark换上了向量化执行引擎，本文将阐述美团在这一方向的实践和思考，希望对大家有所帮助或启发。

overfit同步小助手 2024-06-25 08:03:39 0 收藏

Kafka消费者

消费者组内的消费者负责消费不同的分区，一个分区只能由组内一个消费者消费。手动提交offset：每次消费完数据之后由消费者自己提交offset信息，分为同步提交（阻塞当前线程，提交offset成功后才消费下一波数据，并且会有失败重试）和异步提交（发送了提交请求之后不管成功，直接消费下一波数据）。自动提

overfit同步小助手 2024-06-25 05:03:45 0 收藏

【大数据】StarRocks的四种数据模型

这边博客，我们主要来学习下StarRocks的四种数据模型：明细模型 (Duplicate Key Model)、聚合模型 (Aggregate Key Model)、更新模型 (Unique Key Model) 和主键模型 (Primary Key Model)。这四种数据模型能够支持多种数据分

overfit同步小助手 2024-06-25 04:03:41 0 收藏

不想搭集群，直接用spark

需要用到spark的本地模式，根本用不到集群，就不想搭建虚拟机，hadoop集群啥的，很繁琐，最后写作业还用不到集群（感觉搭建集群对于我完成作业来说没有什么意义），所以才想办法在windows环境下，直接安装jdk、scala、spark等，使用spark的本地模式来写作业。

overfit同步小助手 2024-06-25 04:03:38 0 收藏

Hadoop编写MapReduce程序计算超市销售数据月份销售总额

Hadoop分布式文件系统（HDFS）是Apache Hadoop生态系统的核心组件之一，用于存储和管理大规模数据集。它设计用于在廉价的硬件上运行，并且提供高可靠性、高性能的分布式存储解决方案。本文将深入探讨HDFS的工作原理、架构和优势。

overfit同步小助手 2024-06-25 00:03:44 0 收藏

使用Flink进行股票计算

在每个分区上，我们定义一个滑动窗口，窗口大小为60秒，然后使用AggregateFunction进行聚合计算。通过这个流程，我们可以实时计算每个股票代码在每分钟内的平均交易价格，为股票交易提供有价值的信息。这个程序的主要目的是读取股票数据，按照股票代码进行分组，然后在每个 60 秒的窗口内计算每种股

overfit同步小助手 2024-06-25 00:03:21 0 收藏

HTTP方式在线访问Hadoop HDFS上的文件解决方案

为了通过HTTP方式在线访问HDFS上的文件，您可以利用WebHDFS REST API或者HttpFS Gateway这两种机制实现。1：httpfs是cloudera公司提供的一个hadoop hdfs的一个http接口，通过WebHDFS REST API 可以对hdfs进行读写等访问2：与W

overfit同步小助手 2024-06-24 22:03:46 0 收藏

大数据基础篇_01

摘要：本章内容主要是对大数据概念，常用技术栈及常用架构Hadoop的介绍。以及hdfs相关的机制的介绍

overfit同步小助手 2024-06-24 21:03:51 0 收藏

Hadoop+Spark大数据技术（微课版）总复习

overfit同步小助手 2024-06-24 20:03:17 0 收藏

Hadoop 2.0 大家族（一）

本文讲解Hadoop2.0大家族，介绍Hadoop2.0大家族概述和ZooKeeper。

overfit同步小助手 2024-06-24 18:03:47 0 收藏

大数据的5个V

大数据是组织收集的非结构化、半结构化或结构化数据的组合。这些数据集可以被挖掘以获得洞察力，并用于机器学习项目、预测建模和其他高级分析应用程序。大数据可以用来改善运营，提供更好的客户服务，并创建个性化的营销活动——所有这些都可以为组织增加价值。例如，大数据分析可以为公司提供有价值的客户洞察，然后可以用

overfit同步小助手 2024-06-24 17:03:46 0 收藏

远程仓库.github/workflow的 yml如何配置

git 远程仓库.github/workflow的 yml如何配置。

overfit同步小助手 2024-06-24 16:03:54 0 收藏

乡村振兴与农业现代化：以现代农业科技为引领，提升农业综合生产能力，打造高产高效、生态安全的美丽乡村

我们需要加强农业科技研发和推广、优化农业生产结构、加强农业基础设施建设等措施不断提高农业综合生产能力为乡村振兴和农业现代化提供有力支撑。同时，农业科技的创新也催生了农业观光、休闲农业等新型业态，为农村经济发展注入了新的活力。“方案365”全新整理乡村振兴规划设计、智慧文旅、智慧园区、数字乡村-智慧农

overfit同步小助手 2024-06-24 13:07:20 0 收藏

【Git】git命令大全（持续更新）

工作空间本地仓库（本地缓冲区）远程仓库程序员在本地IDE中编写的为工作空间。本地完成开发后准备提交远程仓库需要提交（cmmit）到本地仓库先。本地仓库会保存你每次对代码进行的改动，因此，你可以回退到指定commit来将你的代码恢复到某个状态。本地仓库保存的代码和变更历史保存在文件夹中，因此误删可能会

overfit同步小助手 2024-06-24 13:04:19 0 收藏