大数据 - overfit.cn

Hadoop集群部署（完全分布式模式、hadoop2.7.3+安装包）

overfit同步小助手 2024-06-17 05:03:43 0 收藏

Flink Catalog

按照SQL的解析处理流程在Parse解析SQL以后，进入执行流程——executeInternal。其中有个分支专门处理创建Catalog的SQL命令创建Catalog会去全包查找对应的CatalogFactory的子类，然后使用配置的子类构建这里注意，上面的步骤只查询classpath下的类，像H

overfit同步小助手 2024-06-17 05:03:30 0 收藏

实时大数据流处理技术：Spark Streaming与Flink的深度对比

Flink在流处理、状态管理和低延迟方面表现更优，而Spark Streaming在批处理和微批处理场景、以及成熟的生态系统支持方面有其独到之处。由于Flink的设计更加注重流处理，它能够为需要高吞吐量和低延迟的应用提供更优的支持。由于其广泛的社区支持和成熟的生态系统，提供了大量的库和API，使得开

overfit同步小助手 2024-06-17 04:03:52 0 收藏

云计算与大数据课程笔记（八）之虚拟化技术（上）

Hypervisor，也称为虚拟机监视器（VMM），是服务器虚拟化中的核心软件。它允许多个操作系统在同一台物理服务器上并行运行，每个操作系统都在自己的虚拟机内运行，并且彼此隔离。Hypervisor负责分配硬件资源给每个虚拟机，如CPU时间、内存空间等，并确保虚拟机之间不会相互干扰。

overfit同步小助手 2024-06-17 04:03:35 0 收藏

如何确保大数据在跨行业共享时的隐私与安全平衡？

这些措施的综合应用可以帮助实现大数据在跨行业共享时的隐私与安全平衡。访问控制与权限管理：通过建立严格的数据访问控制和权限管理机制，限制数据的访问和使用权限，确保只有合法的人员能够使用数据。教育和培训：加强对数据共享相关人员的教育和培训，提高他们的安全意识和隐私保护意识，减少数据共享过程中的人为失误。

overfit同步小助手 2024-06-17 03:06:53 0 收藏

大数据和AI在半导体生产系统中的应用

**做法和方法**：收集设备运行数据，训练预测模型，设定阈值触发维护。- **做法和方法**：根据订单需求和设备状态，使用算法生成最优生产计划。- **做法和方法**：收集市场数据和客户反馈，使用文本分析了解市场情绪。- **做法和方法**：收集工艺参数和良率数据，使用优化算法调整参数。- **做法

overfit同步小助手 2024-06-17 03:03:28 0 收藏

Git 生产操作总结

overfit同步小助手 2024-06-17 01:04:00 0 收藏

全球极其先进的GPU服务器推荐大数据推理、大数据训练、高性能GPU服务器

现在，在之前的系统中需要消耗数周计算资源的人工智能模型在几天内就可以完成训练。例如，全球最大的超大规模计算公司最近估计，如果每个用户一天仅花费三分钟时间使用其语音识别服务，他们便需要将数据中心的容量翻倍。为推广适用于每种工作负载的首选服务器，推出 GPU 加速服务器平台，该平台用于为各种训练 (HG

overfit同步小助手 2024-06-17 00:03:44 0 收藏

《大数据 Spark2.x+协同过滤算法部分解析》

Spark2.x 提供了高效的分布式计算能力，能够处理大规模的数据。协同过滤算法是基于这样一个假设：如果用户 A 和用户 B 在过去有相似的偏好或行为，那么在未来他们也可能有相似的偏好。总之，Spark2.x+协同过滤算法在大数据推荐系统中具有重要地位，通过合理应用和不断优化，可以为用户提供更精准、

overfit同步小助手 2024-06-17 00:03:31 0 收藏

重磅！金融监管总局出台《银行保险机构数据安全管理办法》！金融行业安全迎来新变革？

收集数据应坚持“合法、正当、必要、诚信”原则，明确数据收集和处理的目的、方式、范围、规则，保障收集过程的数据安全性、数据来源可追溯，不得超出数据主体同意的范围收集数据；同时，金融行业数字化变革加速演进，新技术、新业务模式不断涌现，数据的使用、加工、传输、共享等活动日益频繁，进一步凸显数据安全保护的重

overfit同步小助手 2024-06-16 23:07:09 0 收藏

基于Spark中随机森林模型的天气预测系统

使用Apache Spark和随机森林算法来构建一个天气预测系统。该系统将利用历史天气数据，通过机器学习模型预测未来的天气情况，特别是针对是否下雨的二元分类问题。

overfit同步小助手 2024-06-16 23:03:44 0 收藏

智能安全：大数据为城市安全建立可靠的预警系统

1.背景介绍城市安全是现代城市发展的重要支柱，对于城市居民的生活和经济发展具有重要的影响。随着城市规模的不断扩大，城市安全问题也日益凸显。为了解决这一问题，大数据技术在城市安全领域发挥着重要作用。本文将从大数据技术的角度，探讨如何为城市安全建立可靠的预警系统。1.1 城市安全的挑战城市安全面临的挑战

overfit同步小助手 2024-06-16 22:07:25 0 收藏

算法安全自评估报告如何填写？(附模板)

主体备案主要审查的就是一家主体公司是否有算法相应的规章制度，里面最主要的就是算法安全管理制度。算法备案主要审查的就是算法本身的情况，包括算法基本信息、算法运行机制及原理、算法风险以及相应的防范措施等等，这里面最重要的就是算法安全自评估报告。产品备案主要审查的就是算法产品的情况，包括产品的名称、形态以

overfit同步小助手 2024-06-16 22:07:14 0 收藏

Hadoop单词统计实践：结果分析全流程详尽指南

Hadoop的单词统计（Word Count）是一个经典的MapReduce示例，用于计算输入文本文件中每个单词出现的次数。本指南旨在帮助读者在搭建完Hadoop集群后运行单词统计程序，并最终分析输出结果，全程详细解析，帮助读者深入理解大数据处理的核心流程。通过虚拟机实现Hadoop单词统计是一个很

overfit同步小助手 2024-06-16 19:03:48 0 收藏

大数据技术与应用（Spark），2024年最新含面试题+答案

链图片转存中…(img-d7I0zdtA-1713022181404)]

overfit同步小助手 2024-06-16 19:03:25 0 收藏

Spark参数配置不合理的情况

通常 executor 堆外内存在 executor.cores=1 的时候，1g 足够了，正常来说最大值不超过 2g；，默认的 buffer 会在 64k 到 64m 动态伸缩，没有特殊需要不需要设置，如果数据比较大，设置。算法作业绝大多数是 rdd 操作，合理设置并行度，事半功倍，后面会专门介绍

overfit同步小助手 2024-06-16 18:03:31 0 收藏

【大数据】2024年大数据新手学习路线图【更新中】

大数据学习路径图

overfit同步小助手 2024-06-16 17:03:34 0 收藏

Apache DolphinScheduler：深入了解大数据调度工具

都会遍历所有的 worker，使其 current\_weight+weight，同时累加所有 worker 的 weight，计为 total\_weight，然后挑选 current\_weight 最大的作为本次执行任务的 worker，与此同时，将这台 worker 的 current\_w

overfit同步小助手 2024-06-16 14:03:57 0 收藏

【Flink 从 Kafka 读取数据报错】

Caused by: java.lang.NoSuchMethodError: org.apache.kafka.clients.admin.DescribeTopicsResult.allTopicNames()Lorg/apache/kafka/common/KafkaFuture;

overfit同步小助手 2024-06-16 14:03:14 0 收藏

Spark Standalone模式部署

准备至少2台虚拟机，装好linux系统，我装的是Ubuntu20.04。

overfit同步小助手 2024-06-16 12:03:37 0 收藏