大数据 - overfit.cn

掌握实时数据流：使用Apache Flink消费Kafka数据

希望能够帮助大家更深入地理解Flink和Kafka在实时数据处理中的应用，以及如何高效地利用这些强大的工具。

overfit同步小助手 2023-12-26 23:03:42 0 收藏

Flink 客户端操作命令及可视化工具

Flink提供了丰富的客户端操作来提交任务和与任务进行交互。下面主要从Flink命令行、SQL Client和Web五个方面进行整理。在Flink安装目录的bin目录下可以看到flink和等文件，这些都是客户端操作的入口。

overfit同步小助手 2023-12-26 09:03:26 0 收藏

Python 使用Hadoop 3 之HDFS 总结

调用文件系统(HDFS)Shell命令应使用 bin/hadoop fs 的形式。所有的的FS shell命令使用URI路径作为参数。URI格式是。对HDFS文件系统，scheme是hdfs，对本地文件系统，scheme是file。其中scheme和authority参数都是可选的，如果未加指定，就

overfit同步小助手 2023-12-26 07:03:48 0 收藏

phoenix安装以及启动过程中出现的报错

如果没有下载htrace-core-3.2.0-incubating.jar 包，将该包放到/opt/install/hbase-2.2.7/lib下面，hbase每一个节点都要放，然后重启hbase。解决办法：查看/opt/install/hbase-2.2.7/lib 下面是否有htrace-c

overfit同步小助手 2023-12-26 07:03:45 0 收藏

本地安装kibana kibana设置中文汉化

本地安装kibana 无插件kibana设置中文汉化教程到这里结束了，希望可以帮助到刚接触es的小伙伴，如果疑问处请及时联系。

overfit同步小助手 2023-12-26 05:03:47 0 收藏

使用git config --global设置用户名和邮件，以及git config的全局和局部配置

overfit同步小助手 2023-12-26 00:04:08 0 收藏

《PySpark大数据分析实战》-02.了解Hadoop

大家好！今天为大家分享的是《PySpark大数据分析实战》第1章第2节的内容：了解Hadoop。

overfit同步小助手 2023-12-25 22:03:51 0 收藏

理解 Spark 写入 API 的数据处理能力

这张图解释了 Apache Spark DataFrame 写入 API 的流程。它始于对写入数据的 API 调用，支持的格式包括 CSV、JSON 或 Parquet。流程根据选择的保存模式（追加、覆盖、忽略或报错）而分岔。每种模式执行必要的检查和操作，例如分区和数据写入处理。流程以数据的最终写入

overfit同步小助手 2023-12-25 19:03:43 0 收藏

HBase之HBCK2

hbase集群修复工具

overfit同步小助手 2023-12-25 17:03:16 0 收藏

Hadoop集群搭建详细步骤(只有JDK和Hadoop)

Hadoop集群搭建详细步骤，跟着尚硅谷做的，直接用root用户也可以

overfit同步小助手 2023-12-25 15:03:16 0 收藏

【Hadoop】执行start-dfs.sh启动hadoop集群时，datenode没有启动怎么办

执行start-dfs.sh后，datenode没有启动，很大一部分原因是因为在第一次格式化dfs后又重新执行了格式化命令（hdfs namenode -format)，这时主节点namenode的clusterID会重新生成，而从节点datanode的clusterID 保持不变。打开name目录

overfit同步小助手 2023-12-25 13:03:21 0 收藏

elasticsearch|大数据|elasticsearch低版本集群的部署安装和安全增强---密码设置问题

【代码】elasticsearch|大数据|elasticsearch低版本集群的部署安装和安全增强---密码设置问题。

overfit同步小助手 2023-12-25 10:07:19 0 收藏

Flink 数据序列化

大家都应该清楚Task和StreamTask两个概念，Task是直接受TaskManager管理和调度的，而Task又会调用StreamTask，而StreamTask中真正封装了算子的处理逻辑。在run()方法中，首先将反序列化后的数据封装成StreamRecord交给算子处理；然后将处理结果通过

overfit同步小助手 2023-12-25 08:03:19 0 收藏

Hadoop集群安全模式&磁盘修复

dfs.namenode.safemode.threshold-pct:副本数达到最小要求的block占系统总block数的百分比，默认0.999f。dfs.namenode.safemode.min.datanodes:最小可用datanode数量，默认0。dfs.namenode.safemod

overfit同步小助手 2023-12-25 04:07:28 0 收藏

【大数据】Hive入门➕安装（尚硅谷大数据Hive 3.1.3教程）

hive尚硅谷面试刷题网站✍命令行客户端beeline是Apache Hive提供的一个交互式工具，用于与Hive进行交互式的数据库操作和查询。具体来说，beeline允许用户通过命令行界面连接到Hive服务器，并在该界面下执行Hive SQL语句、查看查询结果、管理数据库和表等。连接到Hive服务

overfit同步小助手 2023-12-25 04:03:31 0 收藏

flink中使用外部定时器实现定时刷新

flink中外部定时器实现

overfit同步小助手 2023-12-25 02:03:49 0 收藏

[AIGC ~大数据] 深入理解Hadoop、HDFS、Hive和Spark：Java大师的大数据研究之旅

本篇博客从"是什么"、"为什么"和"怎么办"三个角度，介绍了Hadoop、HDFS、Hive和Spark等大数据技术。它们在处理大规模数据集和实现分布式计算方面具有重要作用，对于Java大师来说是必不可少的工具。希望本篇博客能帮助你更深入地了解这些技术，并在大数据领域取得更好的成就。请注意，本篇博客

overfit同步小助手 2023-12-25 02:03:42 0 收藏

基于Hadoop+SpringBoot的物品租赁系统设计与实现

本物品租赁系统基于Hadoop平台，利用Java语言、MySQL数据库，结合目前流行的 B/S架构，将物品租赁管理的各个方面都集中到数据库中，以便于用户的需要。在确保系统稳定的前提下，能够实现多功能模块的设计和应用。该物品租赁系统由管理员功能模块和用户模块组成。不同角色的准入制度是有严格区别的。各功

overfit同步小助手 2023-12-25 00:03:31 0 收藏

【金猿人物展】香港科技园公司董事车品觉：大数据揭示了大语言模型的特征与趋势...

‍车品觉本文由香港科技园公司董事车品觉撰写并投递参与“数据猿年度金猿策划活动——2023大数据产业年度趋势人物榜单及奖项”评选。大数据产业创新服务媒体——聚焦数据· 改变商业2023年正好是大数据发展至今的第十三年，过程中大数据的发展深深地塑造了大型AI模型的进步与应用，如深度学习和机器学习模型。随

overfit同步小助手 2023-12-24 22:03:37 0 收藏

【flink番外篇】1、flink的23种常用算子介绍及详细示例（完整版）

1、Flink 专栏等系列综合文章链接本文主要介绍Flink 的23种常用的operator及以具体可运行示例进行说明，如果需要了解更多内容，可以在本人Flink 专栏中了解更新系统的内容。本文除了maven依赖外，没有其他依赖。本专题分为五篇，即：【flink番外篇】1、flink的23种常用算子

overfit同步小助手 2023-12-24 19:03:57 0 收藏