大数据 - overfit.cn

Spark-driver和executor启动过程

1、代码中根据SparkConf构建SparkContext2、创建任务调度器并启用3、StandaloneSchedulerBackend 和 CoarseGrainedSchedulerBackend 的 start() 启动4、DriverEndpoint 创建等待其他Endpoint发送

overfit同步小助手 2024-09-20 09:04:02 0 收藏

GenAI 客户支持 - 第 2 部分：构建知识库

语义搜索的有效性取决于文档摘要的质量。我们的技术支持文章有由支持工程师编写的摘要，但我们提取的其他文档没有。考虑到我们提取的知识规模，我们需要一个自动化流程来生成这些摘要。最简单的方法是提取每个文档的前 280 个字符并将其用作摘要。我们对此进行了测试，发现这会导致搜索相关性较差。我们团队的一位工程

overfit同步小助手 2024-09-20 07:03:51 0 收藏

拉链表和宽表的优劣势

是一种用于数据仓库的表结构，记录了数据随时间变化的历史状态。每次数据发生变化时，都会在拉链表中插入一条新记录，而旧记录保持不变，仅标记其有效时间区间。

overfit同步小助手 2024-09-20 01:03:52 0 收藏

应急指挥信息化系统解决方案

无人机与移动指挥系统的结合，形成了天地一体化的现场移动指挥系统，能够提供全方位、多角度的指挥信息支撑，确保救援现场与后方指挥中心的数据、音视频、指令畅通。平台的整体架构进一步细化，包括综合应用平台、智能运维平台体系、统一门户、大屏显示终端、PC端、移动端等，以及业务应用、服务总线、基础框架等支撑系统

overfit同步小助手 2024-09-19 22:03:47 0 收藏

2024 大数据毕业设计数据科学与大数据专业毕业设计选题

数据科学与大数据专业毕业设计选题选题合集涵盖了深度学习、机器学习、算法、人工智能、大数据、信息安全、推荐系统、目标检测等多个热门领域。对于计算机专业、软件工程专业、人工智能专业、大数据专业的毕业生而言，选择一个合适的毕业设计选题至关重要。在这个毕业设计选题合集中，我们精心收集了各种有趣且具有挑战性的

overfit同步小助手 2024-09-19 22:03:38 0 收藏

人工智能毕业论文(毕设)开题推荐

今天学长推荐几个项目，毕业设计可借鉴下面这几个项目，这里不仅仅是简单的推荐项目，还会给出一些思路，同学们可以基于这些项目魔改成自己的项目，至少还能增加一个项目经验不是？丹成学长在这里搜集分享信息管理专业毕设毕设选题，难度适中，适合作为毕业设计，大家参考。🧿选题指导, 项目分享：见文末相对容易工

overfit同步小助手 2024-09-19 18:01:26 0 收藏

Eureka 环境配置及安装及使用指南--大数据！！！！

Eureka 是由 Netflix 开发的一个服务发现框架，主要用于分布式系统中的服务注册和发现。在微服务架构中，Eureka 作为服务注册中心，提供了服务实例的管理和查找功能。它是 Spring Cloud 的一部分，被广泛应用于现代微服务架构中。

overfit同步小助手 2024-09-19 15:03:41 0 收藏

饿了么基于Flink+Paimon+StarRocks的实时湖仓探索

本文整理自饿了么大数据架构师、Apache Flink Contributor 王沛斌老师在8月3日 Streaming Lakehouse Meetup Online（Paimon x StarRocks，共话实时湖仓架构）上的分享。

overfit同步小助手 2024-09-19 13:03:41 0 收藏

大数据-135 - ClickHouse 集群 - 数据类型实际测试

ClickHouse 是一款高性能的列式数据库管理系统，广泛应用于大数据分析和实时查询。了解 ClickHouse 的数据类型有助于更有效地存储和查询数据。本文将详细介绍 ClickHouse 支持的各种数据类型。Int8, Int16, Int32, Int64, Int128, Int256：有

overfit同步小助手 2024-09-19 11:18:51 0 收藏

Big Data 流处理框架 Flink

Apache Flink 是一款用于大数据流处理和批处理的开源流式计算框架。它以高吞吐量、低延迟、可扩展性和精确一次语义（exactly-once semantics）为特点，适用于实时数据分析、复杂事件处理、数据管道、机器学习和图计算等场景。

overfit同步小助手 2024-09-19 11:18:15 0 收藏

盘点10款顶级加密软件，让你的数据更安全

以上10款加密软件各具特色，无论你是企业用户还是个人用户，都能在其中找到适合自己的加密工具。固信软件以其全面的加密功能和简便的操作体验，成为企业级用户的不二选择。而对于个人用户，VeraCrypt、AxCrypt、NordLocker等软件同样是值得推荐的解决方案。选择合适的加密软件，将为你的数据安

overfit同步小助手 2024-09-19 09:07:31 0 收藏

从数据仓库到数据中台再到数据飞轮：社交媒体的数据技术进化史

大家好，我是在大数据方面具有一定理解的博主。今天我想分享下从数据仓库到数据中台再到数据飞轮:社交媒体的数据技术进化史，也是这篇文章主题。我亲眼目睹了社交媒体的快速发展，以及随之而来的海量数据的生成与积累。如何有效地管理和利用这些数据，已经成为各大平台在竞争中脱颖而出的关键因素。在我看来，随着技术的进

overfit同步小助手 2024-09-19 09:03:17 0 收藏

大数据新视界 --大数据大厂之Redis在缓存与分布式系统中的神奇应用

本文深入探讨了 Redis 在缓存与分布式系统中的应用，包括其在缓存中的加速数据访问、减轻数据库负载和提高可扩展性的作用，在分布式系统中的分布式锁、消息队列和分布式缓存一致性的应用，以及性能优化和最佳实践，通过实际案例、性能测试数据和图表，为读者全面展示了 Redis 的强大功能。

overfit同步小助手 2024-09-19 08:03:32 0 收藏

day01-大数据概述

大数据（big data）：无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合大数据的数据量：1PB~1EB <=> 1024TB~1024*1024TB大数据技术的任务：解决和。

overfit同步小助手 2024-09-19 05:04:00 0 收藏

【大数据AI人工智能之推荐系统】基于Elasticsearch实现推荐引擎的原理与详细实现方案以及源代码详解【5】

在当今数字化时代，个性化推荐系统已成为各大互联网公司提升用户体验、增加用户粘性的重要工具。随着数据量的爆炸式增长和用户对实时性要求的提高，传统的推荐系统架构面临着巨大的挑战。Elasticsearch作为一个分布式、高性能的搜索和分析引擎，凭借其强大的全文检索能力和灵活的数据模型，为构建高效的推荐引

overfit同步小助手 2024-09-19 05:03:41 0 收藏

大数据Flink（一百一十八）：Flink SQL水印操作（Watermark）

4.后面几个以此类推，直到Event Time为：1648197590000的数据进来的时候，前一条数据的WaterMark为1648197589000，于是更新当前的WaterMark为1648197590000，Flink认为1648197590000之前的数据都已经到达，且达到了窗口的触发条件

overfit同步小助手 2024-09-19 02:03:43 0 收藏

HIVE大数据平台SQL优化分享

此文章是大数据平台运维组从多维度参数（CPU，内存，运行时长等）筛选出TOP任务，联合数据开发人员进行优化，最终出具优化方案优化跑批作业的业务逻辑，SQL逻辑等，并跟进方案落地和报告整理。

overfit同步小助手 2024-09-19 00:03:33 0 收藏

hadoop之MapReduce

Hadoop的三大组件：HDFS、Yarn、MapReduce。HDFS：解决的是分布式存储的问题。MapReduce: 解决的是计算问题。Yarn: 计算的时候，使用的资源如何协调（Windows操作系统）mapReduce的优缺点：优点1、易于编程代码写起来有固定的格式，编写难度非常的小，号称是

overfit同步小助手 2024-09-18 20:03:48 0 收藏

【Bigtop】利用Bigtop3.2.0编译大数据组件RPM包

Bigtop 从0开始参考了上述的博文自己尝试了编译组件，过程还是遇到很多问题，一一记录，方便后人

overfit同步小助手 2024-09-18 19:03:36 0 收藏

学习大数据DAY56 业务理解和第一次接入

ERP 系统，（Enterprise Resource Planning，企业资源计划系统）：ERP 系统。OA 系统，（Office Automation System，办公自动化系统）：OA 系统是一种用。Parquet：这是另一种列存储格式，它旨在提供跨平台的文件格式，可以很好地。是一种用于管

overfit同步小助手 2024-09-18 14:03:44 0 收藏