大数据 - overfit.cn

Spark实时（一）：StructuredStreaming 介绍

SparkStreaming与Structured Streaming相比较，SparkStreaming是Spark最初的流处理框架，只能使用DStream算子编程，底层是RDD操作，而Structured Streaming是Spark2.0后退出的流式处理框架，处理支持Spark，底层操作是基

overfit同步小助手 2024-08-11 02:03:32 0 收藏

hive环境安装

0.hive环境安装win0.解压1.配置环境windows运行不了hive高版本需替换bin下载 http://archive.apache.org/dist/hive/hive-1.0.0/ 替换原来bin下载和拷贝一个mysql-connector-java-8.0.x.jar到 $HIV

overfit同步小助手 2024-08-11 00:03:54 0 收藏

Spark实时（四）：Strctured Streaming简单应用

Continuous不再是周期性启动task的批量执行数，而是启动长期运行的task，而是不断一个一个数据进行处理，周期性的通过指定checkpoint来记录状态（如果不指定checkpoint目录，会将状态记录在Temp目录下），保证exactly-once语义，这样就可以实现低延迟。注意：以上代

overfit同步小助手 2024-08-11 00:03:42 0 收藏

大数据-68 Kafka 高级特性物理存储日志存储概述

上节研究Kafka的分区分配策略，Range、RoundRobin、Sticky、自定义策略。本来研究Kafka物理存储，日志存储的概述内容。消息是以主题为单位进行归类，各个主题之间是彼此独立的，互不影响。每个主题又可以分为一个或多个分区每个分区各自存在一个记录消息数据的日志文件我这里的情况是：有一

overfit同步小助手 2024-08-10 23:04:01 0 收藏

HBase

1、启动hadoop验证2、启动zookeeper需要在在三台中分别启动3、启动hbase集群，需要在master上执行4、验证hbase通过 hbase shell 进入到hbase的命令行NoSQL:理解： NOT ONLY SQL non-relational(非关系型数据库)

overfit同步小助手 2024-08-10 20:03:42 0 收藏

Hadoop学习（三）

1)虚拟存储过程：将输入目录下所有文件大小，依次和设置的setMaxInputSplitSize值比较，如果不大于设置的最大值，逻辑上划分一个块。应用场景：适用于小文件过多的场景，它可以将多个小文件从逻辑上规划到一个切片（数据切片）中，多个小文件就可以交给一个MapTask处理。2）数据切片（Map

overfit同步小助手 2024-08-10 19:03:35 0 收藏

Spark SQL 血缘解析方案

瞬间是不是感觉清晰了，可以完美的拿到表和表以及字段和字段的关系，甚至在加工点场景，可以吧字段的加工表达式可以给生成出来.这里需要注意原生的json文件太大，在发送到kafka中对存储和带宽都有压力，最后注意：血缘的解析处理，放在该agent端，否则kafka的压力会很大，因为单条消息生产环境下会很

overfit同步小助手 2024-08-10 18:03:38 0 收藏

大数据-66 Kafka 高级特性分区副本因子修改 replicas动态修改

上节完成了Kafka宕机恢复后，Leader不会重新分配，需要我们用脚本重新恢复。本节对Kafka集群的副本因子进行修改，现实业务中我们会遇到：当Kafka集群中有一个节点宕机了，比如Broker0、Broker1中，Broker1宕机了，此时由于我们配置了副本数为2，Kafka集群正常工作，提供生

overfit同步小助手 2024-08-10 18:03:20 0 收藏

嵌入式C++、InfluxDB、Spark、MQTT协议、和Dash：树莓派集群物联网数据中心设计与实现（代码示例）

本文介绍了一个基于树莓派集群的物联网数据中心设计与实现。该系统采用了全面的技术栈，涵盖了从数据采集到分析可视化的完整流程。主要技术包括：使用MQTT协议进行数据采集，Apache Kafka实现高效数据传输，InfluxDB存储时序数据，Apache Spark进行大规模数据处理，Pandas和Sc

overfit同步小助手 2024-08-10 17:03:39 0 收藏

摸鱼大数据——Kafka——kafka tools工具使用

可以在可视化的工具通过点击来操作kafka完成主题的创建，分区等操作注意: 安装完后桌面不会有快捷方式,需要去电脑上搜索,或者去自己选的安装位置找到发送快捷方式到桌面!

overfit同步小助手 2024-08-10 15:03:38 0 收藏

DataLight 大数据平台 AI 分析功能逐步上线啦

AI 分析功能是 **DataLight** 通过集成先进的第三方大模型，为用户提供智能化的数据分析和配置优化服务。通过这一功能，您可以更深入地了解您的平台运维情况，从而做出更明智的业务决策。

overfit同步小助手 2024-08-10 15:01:30 0 收藏

Flink-DataWorks第四部分：数据同步（第60天）

本文主要详解了DataWorks的数据同步，为第四部分：由于篇幅过长，分章节进行发布。后续： 数据开发。

overfit同步小助手 2024-08-10 08:03:30 0 收藏

毕业设计大数据招聘租房可视化系统（源码+论文）

🔥这两年开始毕业设计和毕业答辩的要求和难度不断提升，传统的毕设题目缺少创新和亮点，往往达不到毕业答辩的要求，这两年不断有学弟学妹告诉学长自己做的项目系统达不到老师的要求。为了大家能够顺利以及最少的精力通过毕设，学长分享优质毕业设计项目，今天要分享的是🚩毕业设计大数据招聘租房可视化系统（源码+论

overfit同步小助手 2024-08-10 06:03:42 0 收藏

Git log详解

git-log - 显示提交记录。

overfit同步小助手 2024-08-10 04:04:22 0 收藏

Flink SQL整理

overfit同步小助手 2024-08-10 03:03:43 0 收藏

Spark和Flink的介绍、区别以及各自的应用场景

介绍Apache Spark是一个快速、通用的大规模数据处理引擎，由加州大学伯克利分校AMPLab开发，并于2010年开源。Spark基于内存计算，提供了比传统Hadoop MapReduce框架快数十倍的速度，并简化了大规模数据处理的复杂性。它支持多种编程语言（如Scala、Java、Python

overfit同步小助手 2024-08-10 00:03:44 0 收藏

Flink开发语言使用 Java和Scala哪个更合适？

总之，Scala适合于函数式编程和并发编程，Java更加稳定、成熟，更适合于大型项目和企业级应用，在flink开发中可以混合使用java和scala，具体的项目可以根据实际的开发人员技术情况确定。一个是流处理的例子（Scala），另一个是批处理的例子（Java）。Scala 是一种混合了面向对象和函

overfit同步小助手 2024-08-09 18:03:44 0 收藏

数仓: 1- 数据仓库基础

数据仓库 ( Data Warehouse, 简称DW或DWH ) , 也称为企业数据仓库 ( EDW ) , 是一个用于报告和数据分析的系统, 被认为是商业智能的核心组成部分 ; 数据仓库是一个面向主题的、集成的、时变的、非易失的数据集合, 用于支持管理决策 ; 它可以帮助企业整合来自不同数据源

overfit同步小助手 2024-08-09 14:03:50 0 收藏

AI 时代的程序员：如何在变革中保持核心竞争力（万字长文）

AI 时代的到来并不意味着程序员的末日，而是一个重新定义自我价值的机会。通过不断学习、深化专业知识、培养跨领域能力和提升软技能，我们可以在这个充满机遇和挑战的新时代中茁壮成长。记住，AI 是强大的工具，但它仍然需要人类的创造力、洞察力和判断力来发挥最大价值。作为程序员，我们的角色正在从简单的代码编写

overfit同步小助手 2024-08-09 13:01:37 0 收藏

Java中可以用的大数据推荐算法

Java中经常使用的大数据推荐算法介绍，给出了详细的伪代码示例，一目了然，原来如此简单。

overfit同步小助手 2024-08-09 10:03:54 0 收藏