大数据 - overfit.cn

4. ceph存储使用流程

ceph集群默认启用了cephx的认证，业务服务器要挂载使用ceph需要通过令牌认证。一个文件系统存储需要两个RADOS存储池，一个用于存储实体数据，一个用于存储元数据。上面分别创建两个存储池，名称为db_data, db_metadata。分别指定存储池对应的PG数量为128， 64。10-50个

overfit同步小助手 2024-07-05 18:04:49 0 收藏

Elasticsearch实战教程：如何在海量级数据中进行快速搜索

Elasticsearch（简称ES）是一个基于Apache Lucene™的开源搜索引擎，无论在开源还是专有领域，Lucene 可以被认为是迄今为止最先进、性能最好的、功能最全的搜索引擎库。几天我们就来体验一下如何在海量数据中快速进行搜索。

overfit同步小助手 2024-07-05 16:06:32 0 收藏

ES的安装以及使用

点击 View past releases 可以找到所有版本，请选择8.12.2的windows版本这边我选择的是8.12.2的版本,不使用最新版本是因为还没有相对应的IK分词器插件。

overfit同步小助手 2024-07-05 15:06:36 0 收藏

图像处理与大数据：从识别到分析

1.背景介绍图像处理与大数据是一个热门的研究领域，它结合了计算机视觉、机器学习、人工智能和大数据技术，为许多应用提供了强大的支持。随着人工智能技术的发展，图像处理在医疗诊断、自动驾驶、安全监控、物流管理等领域的应用越来越广泛。本文将从图像处理的基本概念、核心算法原理、具体代码实例等方面进行深入探讨，

overfit同步小助手 2024-07-05 14:03:50 0 收藏

探索Hadoop：大数据处理的核心技术

Hadoop是由Apache软件基金会开发的一个开源框架，用于存储和处理大型数据集。它最早由Doug Cutting和Mike Cafarella在2006年创建，灵感来自于Google的文件系统（GFS）和MapReduce论文。Hadoop的目标是解决传统数据库系统无法有效处理的大规模数据处理问

overfit同步小助手 2024-07-05 12:03:46 0 收藏

大数据揭秘

什么是大数据，大数据的技术栈到底包括什么？AI 和大数据究竟有什么联系？Hadoop 是什么，它有什么作用？

overfit同步小助手 2024-07-05 12:03:19 0 收藏

Flink的简单学习五

flink-sql

overfit同步小助手 2024-07-05 10:03:46 0 收藏

大数据基础知识【大数据导论】

大数据素养个人大佬的，将是我成长路上阿川水平有限，如，欢迎大佬大数据。

overfit同步小助手 2024-07-05 09:03:35 0 收藏

实战大数据：分布式大数据分析处理系统的开发与应用

大数据和分布式系统的发展为数据驱动的决策和创新提供了强大的工具。未来，随着技术的不断进步，大数据技术将会在更多领域发挥重要作用，推动社会的进步和发展。这篇文章提供了一个全面的框架和具体的实现示例，涵盖了大数据处理的各个方面。如果有任何特定的需求或细节需要补充，请随时告知。

overfit同步小助手 2024-07-05 08:03:26 0 收藏

周周星分享7.3—基于气象大数据的自动站实况联合预测

中国高校计算机能力竞赛-大数据挑战赛，周周星分享。

overfit同步小助手 2024-07-05 08:03:17 0 收藏

华为云发布EMS弹性内存存储服务，打破AI内存墙

6月21日，在华为开发者大会2024上，华为云CTO张宇昕以“AI Native的华为云，系统创新 X 服务重塑，赋能万千开发者”为主题发表演讲，全面介绍了华为云如何通过“为AI” 进行全栈系统性创新，同时“用AI”重塑系列云服务，从而打造AI Native的云。并正式发布了华为云存储重磅新品EMS

overfit同步小助手 2024-07-05 03:01:37 0 收藏

git 排除文件或文件夹，Git忽略文件或文件夹

overfit同步小助手 2024-07-05 02:04:19 0 收藏

（保姆级）Spark气象监测数据分析-步骤2.1筛选六大污染物浓度排名前20的时段

首先这篇博客绝对原创。读者遇到编程中的任何问题可以留言，看到了就会回复。

overfit同步小助手 2024-07-05 02:03:40 0 收藏

Hadoop伪分布式搭建、Hive搭建

防火墙若不关闭可能导致hadoop模块受损。

overfit同步小助手 2024-07-05 02:03:28 0 收藏

从 Hadoop 迁移，无需淘汰和替换

计算节点：Kubernetes 高效管理计算节点上的无状态 Apache Spark 和 Apache Hive 容器，确保资源利用率和动态扩展。存储层：MinIO纠删码和BitRot保护意味着您可能会丢失多达一半的驱动器数量，但仍然可以恢复，所有这些都不需要维护Hadoop所需的每个数据块的三个副

overfit同步小助手 2024-07-05 01:03:50 0 收藏

大数据数据倾斜与数据膨胀的优化与经验总结

本文参考多篇有关大数据的数据倾斜的解决思路.

overfit同步小助手 2024-07-05 01:03:47 0 收藏

基于Spark3.3.4版本,实现Standalone 模式高可用集群部署

在早期大数据处理中，我们会选择使用MapReduce分析处理海量数据，MapReduce存在计算慢、代码编写复杂、不支持流式计算及性能上的一些问题，Apache Spark计算框架的出现解决了MapReduce计算框架以上各种问题，Apache Spark是新一代的大数据计算框架，支持针对批量数据及

overfit同步小助手 2024-07-05 01:03:15 0 收藏

经验分享|如何查询自己的大数据信用评分？

一、天下信用：天下信用是市面上广告投入比较多的平台，知名度比较高，查询也是比较方便的，但是数据版本比较单一，没有完整的售后服务，如果你是新人想全面了解自己的大数据信用，这种平台建议不用。二、小易大数据：小易大数据是一个大数据报告集成平台，有固定的网址，报告版本也比较多，划分比较详细，最重要的是他们是

overfit同步小助手 2024-07-05 00:03:25 0 收藏

Hadoop 教程 - Hadoop YARN Resource 资源配置

YARN支持扩展资源类型，允许用户定义除内存和CPU之外的其他资源，如GPU、网络带宽等。描述: 配置文件中定义自定义资源类型。描述: 在Capacity Scheduler中，每个队列可以设置用户最低资源占有率百分比，以保证公平性。

overfit同步小助手 2024-07-04 22:03:39 0 收藏

【人机交互复习】第2章 Hadoop

在Hadoop 2.0及以上版本中，start-all.sh 已被拆分为 start-dfs.sh 和 start-yarn.sh，但在旧版本中，start-all.sh 可以启动这两个服务。1.Hadoop 是一个能够对大量数据进行分布式处理的软件框架，并且是以一种可靠、高效、可伸缩的方式进行

overfit同步小助手 2024-07-04 18:03:50 0 收藏