大数据 - overfit.cn

Hbase在启动后Hmaster和HRegionserver会自动关闭的问题解决

Hbase在启动后Hmaster和Hregionserver会自动关闭的问题解决

overfit同步小助手 2024-06-24 13:03:47 0 收藏

Hadoop学习心得

自从我开始接触Hadoop，这个大数据处理的开源框架，我的学习之路就充满了挑战与收获。Hadoop以其强大的数据处理能力和高度的可扩展性，成为了大数据领域的一颗璀璨明星。以下是我对Hadoop学习的一些心得和体会。在开始学习Hadoop之前，我对大数据和分布式计算的概念还相对模糊。但随着对Hadoo

overfit同步小助手 2024-06-24 12:03:34 0 收藏

大数据----31.hbase安装启动

http://archive.apache.org/dist/hbase/ 下载地址。8. 通过web来访问：http://192.168.64.160:16010/（在一台机器上进行配置；注意：在启动之前需要进行时间的统一；（我们使用的是和主节点的时间同步；3.解压软件：解压到/usr/loca

overfit同步小助手 2024-06-24 10:03:47 0 收藏

Hadoop伪分布式安装配置图文保姆级教程—保姆级配置教程—全网最全[官方手册版]

Hadoop伪分布式安装配置图文保姆级教程—全网最全一、安装前需要1.VMware安装配置：2.相关Hadoop软件包下载3.Ubuntu镜像下载二、Ubuntu系统安装前提声明：已安装可忽略此步（但要有远程传输VMwareTools，和英文版的Ubuntu）三、Hadoop单机+伪分布式配置1.

overfit同步小助手 2024-06-24 08:03:56 0 收藏

深入解析大数据体系中的ETL工作原理及常见组件

在当今数字化时代，大数据处理已经成为了企业成功的重要组成部分。而在大数据处理中，ETL（Extract, Transform, Load）是至关重要的一环，它负责将数据从不同的来源抽取出来，经过必要的转换和加工，最终加载到目标数据仓库或数据湖中。

overfit同步小助手 2024-06-24 05:03:52 0 收藏

5、Flink事件时间之Watermark详解

Flink事件时间之Watermark详解

overfit同步小助手 2024-06-24 03:03:54 0 收藏

从0开始学人工智能测试节选：Spark -- 结构化数据领域中测试人员的万金油技术（三）

分布式计算的原理总结一句话就是：分而治之。所有的分布式软件都是分而治之的思路，当数据量大到了单机无法承载的时候，那么就利用上面的原理，把数据分布到不同的机器中。这样的架构也就可以支持横向扩展，也就是当存储软件的性能或者磁盘空间不够用时，只要加机器就可以了。

overfit同步小助手 2024-06-24 01:03:53 0 收藏

数据仓库—建模方法论—Data Vault 建模

按照Dan Linstedt的定义，Data Vault模型是面向细节的、可追踪历史的、一组有连接关系的规范化的表的集合。它综合了三范式建模和星型模型的优点，其设计理念是满足企业对数据模型灵活性、可扩展性、一致性和对需求的适应性要求，是专门针对企业级数据仓库需要的一套建模方法。Data Vault模

overfit同步小助手 2024-06-24 01:03:17 0 收藏

消息队列kafka中间件详解：案例解析(第10天)

本文主讲述了消息队列，Kafka的架构，Kafka的相关使用和常用shell命令，Kafka的Python API的操作；

overfit同步小助手 2024-06-24 00:03:41 0 收藏

kafka进阶核心原理详解：案例解析(第11天)

本文通过案例的方式详解kafka进阶核心原理：副本机制，数据位移，分发策略，负载均衡，数据积压等问题

overfit同步小助手 2024-06-23 21:03:42 0 收藏

02-EMQ开源版本安装和使用

EMQX 是一款大规模可弹性伸缩的云原生分布式物联网 MQTT 消息服务器。作为全球最具扩展性的 MQTT 消息服务器，EMQX 提供了高效可靠海量物联网设备连接，能够高性能实时移动与处理消息和事件流数据，帮助您快速构建关键业务的物联网平台与应用。开放源码：基于 Apache 2.0 许可证完全开源

overfit同步小助手 2024-06-23 20:04:30 0 收藏

【AI大模型应用开发实战】数据标注：标注工具与方法应用

随着人工智能技术的飞速发展，尤其是大规模预训练模型（如GPT-3、BERT等）的出现，数据与标注的质量和数量成为了影响模型性能的关键因素。大模型需要海量的数据进行训练，而这些数据必须经过精心的标注，以保证模型能够理解和生成高质量的输出。数据是指用于训练模型的原始信息集合，可能包括文本、图像、音频等多

overfit同步小助手 2024-06-23 19:01:50 0 收藏

Git推送（push）操作

在前面的文章中，都在要本地编写文件代码和提交，维护管制自己的文件版本，然后这种“自娱自乐”的方式，意义不是很大，在这里将介绍如何与其它的开发人员协同开发工作：每个开发人员都可以提交自己贡献的代码，并让其他人看到和修改。如果对上面的提交修改没有疑义，则我们就可以将文件代码推送到远程存储库中，从而让其它

overfit同步小助手 2024-06-23 17:04:30 0 收藏

Hadoop HDFS：海量数据的存储解决方案

作为处理大规模数据集的强大工具，HDFS已经成为了很多组织在大数据时代的基石。虽然存在一些设计和性能挑战，但其开源的本质和持续的技术进步保证了HDFS在未来数据技术领域的重要位置。无论是数据存储、大数据分析还是云服务，HDFS都将继续发挥其独特的价值和功能。

overfit同步小助手 2024-06-23 17:03:54 0 收藏

摸鱼大数据——Hive基础理论知识——Hive环境准备

后台启动hiveserver2服务: nohup hive --service hiveserver2 &方式1: sh 脚本注意: 需要进入脚本所在目录,但脚本有没有执行权限不影响执行。方式2: ./脚本注意: 需要进入脚本所在目录,且脚本必须有执行权限。

overfit同步小助手 2024-06-23 17:03:31 0 收藏

大数据技术概述_1.大数据的定义

Granter公司关注大数据的三个量化指标：数据量、数据种类和处理速度。Granter认为传统的存储技术难以应付大数据处理，主要存在以下三大挑战。挑战一：不断增长的数据量。在大数据背景下，数据这一宝贵财富通常是不能删除的，因此数据将不断积累增长，增长速度经常超出人们预计。信息中心需要管理TB级甚至P

overfit同步小助手 2024-06-23 16:03:54 0 收藏

自从麻将游戏有了AI助阵，赢“麻”了！| 网易数智麻将棋牌游戏AI智能体解决方案

得益于 AI 智能体的高竞技水平，它们不仅能够提供有挑战性的游戏体验，还进一步保持了玩家的游玩的“趣味性”，从而延长玩家的粘度与活跃性，满足不同段位玩家需求，并调控整体玩家分布，具备高策略水平的 AI 智能体，满足高段位玩家需求，打造最高水平牌麻平台，具备自适应能力的 AI 智能体，积累新数据学习新

overfit同步小助手 2024-06-23 15:01:32 0 收藏

FlinkCDC实时读取PostgreSQL

wal_level必须更改，其它参数选着性更改，如果同步表数量超过10张建议修改为合适的值。2.新建用户并且给用户复制流权限（例如在navicat中操作）1.更改配置文件postgresql.conf。一、准备（PG版本为9.6.24）

overfit同步小助手 2024-06-23 13:03:27 0 收藏

git合并冲突＜＜＜＜＜＜＜ HEAD、=======、＞＞＞＞＞＞＞含义

在 git 中，<<<<<<< HEAD、=======、>>>>>>>是用来标记代码冲突的特殊标记。

overfit同步小助手 2024-06-23 12:04:17 0 收藏