大数据 - overfit.cn

Flink基础概念-算子

无界数据流例如从Kafka这样的消息组件中读取的数据一般，没有数据流结束的定义，即使没有数据也在进行消费。有界数据流有界数据流能够等到所有数据都提取之后再进行处理。有状态流处理将数据的中间状态进行存储，能够重复使用该状态进行处理。Flink的特点Flink计算模型流计算微批处理时间语义事件时间、处理

overfit同步小助手 2023-12-21 19:03:37 0 收藏

高效营销系统集成：百度营销的API无代码解决方案，提升电商与广告效率

如此一来，企业可以无缝地将百度营销的强大功能与现有系统相结合，实现数据实时同步和分析，为营销决策提供强有力的支持。通过百度营销API的集成，电商企业能够实现对用户行为的实时监控，对消费者偏好进行深入分析，并据此优化其营销策略。集成后的系统能够将CRM中的数据实时同步到百度营销，使营销团队能够根据最新

overfit同步小助手 2023-12-21 17:04:06 0 收藏

Kafka 基础知识-01

Kafka基础知识

overfit同步小助手 2023-12-21 17:03:26 0 收藏

【大数据】Doris 构建实时数仓落地方案详解（一）：实时数据仓库概述

数据仓库的概念可以追溯到 20 世纪 80 年代，当时 IBM 的研究人员提出了商业数据仓库的概念。数据仓库概念的提出，是为了解决和数据流相关的各种问题，特别是多重数据复制带来的高成本问题。

overfit同步小助手 2023-12-21 16:03:30 0 收藏

大数据｜海豚调度官方文档注解（3）

该样例模拟了自定义参数任务，为了更方便的复用已有的任务，或者面对动态的需求时，我们会使用变量保证脚本的复用性。本例中，我们先在自定义脚本中定义了参数 “param_key”，并将他的值设置为 “param_val”。接着在"脚本"中声明了 echo 命令，将参数 “param_key” 打印了出来。

overfit同步小助手 2023-12-21 15:03:13 0 收藏

大数据智能决策系统架构：决策系统与智能城市

作者：禅与计算机程序设计艺术 1.背景介绍智能城市建设是一个极具挑战性的课题。作为我国高新技术产业的龙头之一、信息化水平最高的国家之一，拥有两千多年的城市历史，面对巨大的社会、经济和科技发展需求，如何快速、有效地推进智能城市建设已经成为引领发展的绊脚石。近几年来

overfit同步小助手 2023-12-21 12:03:41 0 收藏

Hadoop学习总结（MapReduce的数据去重）

学习Hadoop的MapReduce的案例——数据去重

overfit同步小助手 2023-12-21 10:03:45 0 收藏

大数据之巅：深入分析数据湖架构的优势

在开始深入研究数据湖的优势之前，让我们首先了解一下什么是数据湖。数据湖是一种存储大规模数据的系统，其中数据以其原始形式存储，无需预定义模式或结构。这意味着数据湖能够接受来自各种源头的数据，包括结构化数据（例如数据库表）、半结构化数据（例如JSON或XML文档）以及非结构化数据（例如文本文件、图像和音

overfit同步小助手 2023-12-21 09:03:54 0 收藏

2023_Spark_实验二十四：Kafka集群环境搭建

KafKa集群环境的搭建，zookeeper集群搭建，Kafka部署验证，2023

overfit同步小助手 2023-12-21 09:03:51 0 收藏

基于大数据的校园外卖系统的设计与实现(Python+Django+MySQL)

通过本文的研究，我们将为校园内外卖业务的管理和发展提供一个全面、准确、方便的解决方案，为外卖平台的发展做出贡献。数据挖掘和分析：通过数据挖掘和机器学习技术，对订单数据进行深入分析和挖掘，提高评价的准确性和精度，为用户提供更优质的服务。订单管理和配送优化：制定标准化的订单管理流程和配送模式，确保订单管

overfit同步小助手 2023-12-21 08:03:55 0 收藏

数据仓库命名规范总结

overfit同步小助手 2023-12-21 08:03:36 0 收藏

校园安全升级，这个方法赶紧直接收藏！

在当今社会，学校安全管理成为备受关注的焦点之一。随着科技的不断进步，门禁监控系统作为一种创新的安全解决方案，在学校管理中扮演着越来越关键的角色。

overfit同步小助手 2023-12-21 02:07:19 0 收藏

集群配置，hadoop配置过程，细节满满

(2)如果你的集群虚拟机已经都创建完成，且确保网络，ssh密钥登陆都做好了后，就可以开始安装jdk和hadoop了。/usr/local/src/hadoop/etc/hadoop 中的对应配置文件中加入下面的相关参数。这一步是集群配置的关键。做一个hadoop的配置流程的全记录，把遇到的问题和细

overfit同步小助手 2023-12-21 02:03:41 0 收藏

大数据：Hadoop刷题

overfit同步小助手 2023-12-20 21:03:41 0 收藏

Spark Streaming 编程权威使用指南

本文档为Spark的旧版本Streaming引擎。Spark Streaming 不再更新，是一个遗留项目。在Spark中有一种新的、更易用的流处理引擎，称为结构化流式处理。您应该使用Spark结构化流处理来开发流式应用和流水线。请参阅结构化流式处理编程指南。*

overfit同步小助手 2023-12-20 20:03:30 0 收藏

关于Flume-Kafka-Flume的模式进行数据采集操作

overfit同步小助手 2023-12-20 20:03:15 0 收藏

大数据机器学习-梯度下降：从技术到实战的全面指南

梯度下降（Gradient Descent）是一种在机器学习和深度学习中广泛应用的优化算法。该算法的核心思想非常直观：找到一个函数的局部最小值（或最大值）通过不断地沿着该函数的梯度（gradient）方向更新参数。简单地说，梯度下降是一个用于找到函数最小值的迭代算法。在机器学习中，这个“函数”通常是

overfit同步小助手 2023-12-20 19:03:47 0 收藏

【Hive】配置

2.5

overfit同步小助手 2023-12-20 18:03:35 0 收藏

运行hive语句时有很多info怎么消掉

每次启动hive和执行hive sql命令时都打印了很多没用的INFO日志，看起来很繁琐，那么该怎么消除掉这些没用的日志消息

overfit同步小助手 2023-12-20 16:03:48 0 收藏

2023_Spark_实验二十三：Kafka的安装与基本操作

Kafka单节点模式部署，并测试

overfit同步小助手 2023-12-20 16:03:42 0 收藏