大数据 - overfit.cn

Flink DataStream的使用 - 对数据的读取、使用、输出的操作

overfit同步小助手 2024-12-07 09:03:48 0 收藏

基于大数据爬虫+数据可视化+SpringBoot的乘用车汽车市场销量情况分析设计和实现(源码+论文+部署讲解等)

随着互联网技术不断地发展，网络与大数据成为了人们生活的一部分，而乘用车汽车市场销量情况分析作为网上应用的一个全新的体现，由于其特有的便捷性，已经被人们所接受。目前主流的乘用车汽车市场销量情况分析服务不仅不明确并且管理盈利较低，针对用户定制的乘用车汽车市场销量情况分析更能够体现出其服务特色。本项目以乘

overfit同步小助手 2024-12-07 09:03:22 0 收藏

spark统一内存模型详解

Spark 的统一内存模型通过动态调整执行内存和存储内存的划分，极大地提高了内存资源的利用率。通过引入堆外内存支持、灵活的内存共享机制以及动态扩展策略，Spark 能够在不同类型的任务（如批处理、流处理、机器学习）之间高效地分配和管理内存资源。我们从底层原理和源代码的角度详细解析了 Spark 内存

overfit同步小助手 2024-12-07 01:03:31 0 收藏

化工智能巡检系统：化工安全生产的有力保障

本文着重探讨化工智能巡检系统在化工行业中的重要意义、核心功能、显著优势以及其对化工安全生产的全方位保障作用。通过深入剖析该系统，旨在为化工领域从业者提供全面的了解，助力推动化工行业的智能化安全管理进程。

overfit同步小助手 2024-12-06 23:07:37 0 收藏

大数据CDP集群中Impala&Hive常见使用语法

【代码】大数据CDP集群中Impala&Hive常见使用语法。

overfit同步小助手 2024-12-06 23:04:09 0 收藏

昊星新品发布会以三大主张、四大新品开创实验室安全新纪元

通过此次新品发布，昊星希望在行业内树立更高的洁净通风安全标准，提升实验室安全意识。昊星自研的AI使能智能通风柜系统，采用领先的AI模型和算法，利用AI图形识别技术替代传统红外和微波传感器解决方案，将区域内对人员的识别率提高至99%，大幅提升通风柜的节能表现。四位会长作为实验室建设及洁净领域的权威专家

overfit同步小助手 2024-12-06 18:06:59 0 收藏

Hadoop高可用集群部署（保姆级教程）

Hadoop高可用集群部署(保姆级教学)

overfit同步小助手 2024-12-06 18:03:37 0 收藏

[实时计算flink]数据摄入YAML作业快速入门

实时计算Flink版基于Flink CDC，通过开发YAML作业的方式有效地实现了将数据从源端同步到目标端的数据摄入工作。本文介绍如何快速构建一个YAML作业将MySQL库中的所有数据同步到StarRocks中。已创建Flink工作空间，详情请参见。上下游存储已创建RDS MySQL实例，详情请参见

overfit同步小助手 2024-12-06 16:04:34 0 收藏

Spark SQL之DataFrame，df对象的创建与使用

Spark SQL之DataFrame，df对象的创建与使用；row+schema对象创建；RDD转为df对象；Pandas中的df对象转为Spark中的df对象；从文件中读取创建；

overfit同步小助手 2024-12-06 16:04:19 0 收藏

大数据之OneData

OneData‌是‌阿里巴巴内部进行数据整合及管理的方法体系和工具，其核心目标是构建统一、规范且可共享的全域数据体系。通过这一体系，企业可以避免数据的冗余和重复建设，规避数据烟囱和不一致性问题，从而充分发挥在大数据海量、多样性方面的独特优势。OneData体系是一种企业级数据治理和管理体系，旨在

overfit同步小助手 2024-12-06 13:03:55 0 收藏

一文看懂数据发展史,大数据环境发展史,大数据技术栈发展史,大数据工作流程

overfit同步小助手 2024-12-06 10:03:38 0 收藏

了解大数据中的决策树

决策树（Decision Tree）是一种类似于流程图的树形结构，每个内部节点表示在一个属性上的测试，每个分支代表一个属性输出，而每个叶节点代表类或类分布。决策树通过树状结构，基于数据特征与目标变量之间的关系，将数据集划分为不同的子集，以逐步构建决策规则。其工作原理是从根节点开始，根据输入特征的取值

overfit同步小助手 2024-12-06 09:04:31 0 收藏

Hadoop完全分布式的搭建（零基础）

本文旨在指导读者如何在虚拟化环境中构建一个完全分布式的Hadoop集群。内容涵盖了从网络和节点的规划到环境设置，再到实现SSH免密登录、配置文件的准备、软件的分发与安装、集群的启动与停止。

overfit同步小助手 2024-12-06 08:04:33 0 收藏

Microi 吾码：大数据浪潮中的智能领航者

在大数据的浩瀚海洋中，Microi 吾码犹如一艘智能领航者，从数据存储、处理与分析、可视化、流式处理到安全与隐私保护以及云平台集成等多个方面，为大数据应用提供了全面而强大的支持。通过丰富的代码示例和深入的文字解析，我们可以看到 Microi 吾码在大数据领域的独特价值和卓越能力。

overfit同步小助手 2024-12-06 08:04:03 0 收藏

2023_Spark_实验十五：SparkSQL进阶操作

本实验通过实践掌握Spark SQL中的复杂查询，如子查询、窗口函数和联接操作，同时学习性能优化策略，包括数据分区、缓存机制和查询优化。学员实现了一个ETL数据处理流程，从日志和交易数据中提取信息，清洗数据并进行复杂查询，最终将处理结果加载到目标存储中。这些技能为后续的大数据分析和处理奠定了基础。

overfit同步小助手 2024-12-06 07:03:59 0 收藏

大数据-240 离线数仓 - 广告业务测试 ADS层数据加载 DataX数据导出到 MySQL

DataX 是由阿里巴巴开源的分布式离线数据同步工具，用于解决不同存储系统之间的数据传输问题。它被设计为一种高效、稳定、易扩展的工具，能够适应多种复杂的数据同步需求。,DataX 是由阿里巴巴开源的分布式离线数据同步工具，用于解决不同存储系统之间的数据传输问题。它被设计为一种高效、稳定、易扩展的工具

overfit同步小助手 2024-12-06 00:03:45 0 收藏

数据仓库和sql 高级查询技巧

根据自己对一些大数据分析相关文章的一些阅读和理解，整理了一些数据分析、Sparksql（也可以是hivesql）常见高级技巧的使用示例，包括语句的实现和特定场景优化等。这些示例有些是大厂数据开发面试中的常见题目。

overfit同步小助手 2024-12-05 23:03:34 0 收藏

一次ES集群崩溃及恢复过程

生产环境上搭建了一套由Filebeat + Kafka + Logstash + Elasticsearch + Kibana实现的实时日志分析系统。每一台生产服务器上利用Filebeat收集指定的应用日志，作为生产者写入到Kafka中；另一端Logstash作为消费者消费Kafka中的消息，并上报

overfit同步小助手 2024-12-05 21:03:39 0 收藏

大数据-239 离线数仓 - 广告业务测试 FlumeAgent 加载ODS、DWD层

Flume 是一个分布式、可靠且可扩展的系统，用于收集、聚合和传输大量日志数据。它常用于从各种数据源（例如日志文件、应用程序、系统等）收集数据并将其传输到 Hadoop 生态系统（例如 HDFS、Hive、HBase 等）进行进一步处理。Flume 主要由多个组件构成，其中 Flume Agent

overfit同步小助手 2024-12-05 21:03:14 0 收藏

探索 Hadoop：构建大数据处理的基石

Hadoop 作为大数据处理领域的中流砥柱，以其独特的架构和强大的功能，为企业和组织处理大规模数据提供了坚实的基础。从数据的分布式存储到高效的并行计算，从与其他技术的集成到性能的优化和未来的发展，Hadoop 不断演进和创新，适应着大数据时代的各种挑战和需求。无论是互联网企业、金融机构还是科研领域，

overfit同步小助手 2024-12-05 20:03:18 0 收藏