大数据 - overfit.cn

Spark原理——逻辑执行图

overfit同步小助手 2024-01-30 07:03:24 0 收藏

喜讯！美创和大数据局用户的数据安全实践被“北大”录取

此次建设打通了各监管单位，各行业之间的通路，消除单位间的间隔，做到不同单位之间的信息安全数据互通，打造了“风险预警、能力评估、落地调查、应急响应、处置整改”的全闭环管理模式，有效提升安全效果、提升安全运维和安全管理效率、展现安全成果，为全区数字化改革打造了纵深立体的安全屏障！数据安全管理平台提供南向

overfit同步小助手 2024-01-30 05:03:37 0 收藏

Flink异步IO初步了解

在EventTime中，以watermark为边界，介于两个watermark之间的消息是乱序的，但是多个watermark之间的消息是有序的。之前使用Flink查询Redis数据的过程中，由于对数据一致性的要求并不是很高，当时是用MapFunction + State 的方案。// result

overfit同步小助手 2024-01-30 04:03:49 0 收藏

大数据--分布式存储 Hadoop

HDFS（分布式文件系统）：解决海量数据存储MAPREDUCE（分布式运算编程框架）：解决海量数据计算YARN（作业调度和集群资源管理的框架）：解决资源任务调度。

overfit同步小助手 2024-01-30 00:03:52 0 收藏

Flink的简单使用

一句话总结，Flink就是一个分布式，高可用，高性能的流处理框架。

overfit同步小助手 2024-01-29 23:03:10 0 收藏

大数据人工智能：实现自动化与智能化的关键技术

1.背景介绍大数据人工智能(Big Data AI)是指利用大数据技术来实现数据的智能化处理和自动化管理，以提高企业和社会的效率和智能化程度。在当今的数字时代，数据量不断增长，人工智能技术不断发展，大数据人工智能成为了企业和社会的必须技术。大数据人工智能的核心是将大量的数据进行挖掘和分析，从而为企业

overfit同步小助手 2024-01-29 20:03:11 0 收藏

Dinky创建Flink实例报错

本文介绍了Dinky创建Flink实例失败的问题描述及解决方法，报错信息为Duplicate entry 'yarn-session-1.13-1' for key 'dlink_cluster_un'

overfit同步小助手 2024-01-29 17:03:27 0 收藏

hadoop与hdfs

Hadoop的核心是分布式文件系统HDFS（Hadoop Distributed File System）和MapReduceHadoop是一个能够对大量数据进行分布式处理的软件框架，并且是以一种可靠、高效、可伸缩的方式进行处理的分布式文件系统把文件分布存储到多个计算机节点上，成千上万的计算机节点构

overfit同步小助手 2024-01-29 15:03:42 0 收藏

【极数系列】Flink是什么?（02）

旨在帮助读者了解Flink基础架构，数据流处理，优势等

overfit同步小助手 2024-01-29 14:03:20 0 收藏

第六章：AI大模型应用实战 6.4 对话系统

1.背景介绍对话系统是一种人工智能技术，旨在通过自然语言对话与用户互动。它们广泛应用于客服机器人、个人助手、虚拟实体等领域。随着深度学习和自然语言处理技术的发展，对话系统的性能也得到了显著提高。本文将从背景、核心概念、算法原理、代码实例等方面进行深入探讨。1.1 背景介绍对话系统的研究历史

overfit同步小助手 2024-01-29 13:01:45 0 收藏

HBase数据模型与API

1.背景介绍HBase是一个分布式、可扩展、高性能的列式存储系统，基于Google的Bigtable设计。它是Hadoop生态系统的一部分，可以与HDFS、MapReduce、ZooKeeper等组件集成。HBase适用于读多写少的场景，可以高效地存储和查询大量数据。HBase的核心概念包括Regi

overfit同步小助手 2024-01-29 11:03:55 0 收藏

Hbase进阶

-不要create 'hive_hbase_emp_table','info'2.实现Hive中创建表hive_hbase_emp_table关联HBase。Region 热合并【无需停止hbase服务，在hbase中执行】3.在Hive中插入数据，通过HBase查询。--在hbase shell中

overfit同步小助手 2024-01-29 10:03:40 0 收藏

《PySpark大数据分析实战》-05.PySpark库介绍

大家好！今天为大家分享的是《PySpark大数据分析实战》第1章第5节的内容：PySpark库介绍。

overfit同步小助手 2024-01-29 08:03:47 0 收藏

flink双流ioin的大状态如何解决和调优

Flink 中的双流ioin操作（双流连接）通常涉及大状态的处理，这可能导致一些性能和状态管理的挑战。以下是解决和调优 Flink 中双流ioin。

overfit同步小助手 2024-01-29 08:03:31 0 收藏

《2023大数据产业年度创新技术突破》榜重磅发布丨第六届金猿奖

‍第六届年度金猿榜单/奖项“第六届年度金猿季策划活动——2023大数据产业创新技术突破榜单/奖项”由金猿X数据猿X上海大数据联盟共同推出。大数据产业创新服务媒体——聚焦数据· 改变商业第六届 “年度金猿季大型主题策划活动”由金猿、数据猿、上海大数据联盟共同组成的金猿组委会发起，在继续深耕大数据产业，

overfit同步小助手 2024-01-29 08:03:14 0 收藏

flink 从kafka读取数据报错

这个依赖,还加了多余的kafkaclient依赖;

overfit同步小助手 2024-01-29 07:03:24 0 收藏

流式湖仓增强，Hologres + Flink构建企业级实时数仓

阿里云实时数仓Hologres研发负责人姜伟华现场分享Hologres+Flink构建的企业级实时数仓，实现全链路的数据实时计算、实时写入、实时更新、实时查询。同时，随着流式湖仓的兴起，Hologres除了支持Delta、Hudi等通用湖格式。

overfit同步小助手 2024-01-29 06:03:16 0 收藏

【大数据进阶第三阶段之Hive学习笔记】Hive安装

安装hadoop 以及 zookeeper、mysql《zookeeper的安装与配置》《Linux环境配置MySQL》

overfit同步小助手 2024-01-29 05:03:16 0 收藏

大数据开发---阿里云ECS上搭建Hadoop伪分布式环境（下篇）

" 2024-01-06 15:31:34,348 INFO common.Storage: Storage directory /opt/hadoop-3.3.1/etc/hadoop/tmp/dfs/name has been successfully formatted."---->表明。ha

overfit同步小助手 2024-01-29 04:03:52 0 收藏

hbase shell行键过滤正则匹配

在实际运维生产环境的过程中，经常遇到需要过滤rowkey包含部分字符的场景。以下列出可行的几种操作方式。

overfit同步小助手 2024-01-29 04:03:28 0 收藏