大数据 - overfit.cn

大数据信用报告多久查一次比较好？怎么查？

而大数据信用报告则是由第三方大数据征信机构通过采集个人在互联网上的行为数据，运用大数据分析技术生成的，展现的内容有很大的区别。本文将就大数据信用报告的查询频率和查询方式进行探讨，以帮助大家更好地理解这一概念。总之，大数据信用报告是一个重要的个人信用评估工具，通过定期查询和了解自己的信用状况，可以帮助

overfit同步小助手 2024-02-13 18:03:59 0 收藏

[AIGC 大数据基础]hive浅谈

在当今大数据时代，随着数据量的不断增大，如何高效地处理和分析海量数据已经成为一个重要的挑战。为了满足这一需求，Hive应运而生。Hive作为一个基于Hadoop的数据仓库基础设施，为用户提供了类SQL的查询语言和丰富的功能，使得处理大规模数据变得更加简单和高效。通过对数据进行分区、压缩以及并行处理，

overfit同步小助手 2024-02-13 18:03:54 0 收藏

HBase的数据库安全与权限管理

1.背景介绍1. 背景介绍HBase是一个分布式、可扩展、高性能的列式存储系统，基于Google的Bigtable设计。它是Hadoop生态系统的一部分，可以与HDFS、MapReduce、ZooKeeper等组件集成。HBase具有高可靠性、高性能和高可扩展性等特点，适用于大规模数据存储和实时数据

overfit同步小助手 2024-02-13 18:03:51 0 收藏

大数据集群基础之Yarn的运维

在使用YARN（Yet Another Resource Negotiator）监控Spark任务时，我们可以通过YARN的资源管理器（ResourceManager）Web界面来查看Spark应用程序的状态、资源使用情况和任务执行情况。YARN会持续监控应用程序的容器，跟踪它们的资源使用情况。YA

overfit同步小助手 2024-02-13 17:03:51 0 收藏

xslx表格文件采集到hdfs流程&hdfs数据 load到hive表

值得注意的是脚本内容指定了一个json文件，如果后面需要同步其他任务，记得修改相关配置；后端启动hive --service metastore：nohup hive --service metastore > /dev/null 2>&1 &python datax/bin/datax.py js

overfit同步小助手 2024-02-13 17:03:32 0 收藏

大数据Zookeeper--案例

比如说"进程1"在使用该资源的时候，会先去获得锁，"进程1"获得锁以后会对该资源保持独占，这样其他进程就无法访问该资源，"进程1"用完该资源以后就将锁释放掉，让其他进程来获得锁，那么通过这个锁机制，我们就能保证了分布式系统中多个进程能够有序的访问该临界资源。2）Curator是一个专门解决分布式锁的

overfit同步小助手 2024-02-13 15:03:39 0 收藏

大数据企业应用场景分析

大到企业，小到业务团队，都有可落地的大数据应用场景，可以和需要是两回事，有价值才需要；从价值角度，评估业务数据的情况，数据大量级、性能高要求都是大数据技术的适用场景。引入大数据技术，从数据分析、智能推荐、产品功能优化、异常检测、智能管理、人工智能和机器学习应用的视角，评估业务的必要性，再规划资源落地

overfit同步小助手 2024-02-13 15:03:36 0 收藏

Hadoop YARN Cgroups 资源隔离讲解

Hadoop YARN (Yet Another Resource Negotiator) 使用 Cgroups（Control Groups）来进行资源管理和隔离。Cgroups 是 Linux 内核提供的一种机制，用于限制、账户和隔离进程组（process groups）的资源（例如 CPU、内

overfit同步小助手 2024-02-13 13:03:44 0 收藏

HBase集群部署

在linux上部署Hbase

overfit同步小助手 2024-02-13 12:03:44 0 收藏

flink反压及解决思路和实操

我这个是并行度是 4 ，所以会有 0、1、2、3 代表是哪个 subTask（task 下每个并行task），其中看到的比较多的是这两个，outPutUsage 代表发送端 Buffer 的使用率，inPutusage 代表的接收端 Buffer 的使用率。也可能是 TaskManager 的内存引

overfit同步小助手 2024-02-13 08:03:47 0 收藏

大数据StarRocks(四) ：常用命令

这次主要介绍生产工作中Starrocks时的常用命令。

overfit同步小助手 2024-02-13 04:03:46 0 收藏

Hadoop 3.1.1 HDFS 集群部署

【代码】Hadoop 3.1.1 HDFS 集群部署。

overfit同步小助手 2024-02-13 04:03:35 0 收藏

大数据之数据治理架构 —— Atlas

数据治理是一种组织和管理数据资源的过程，旨在确保数据的质量、安全性、可靠性、可访问性和合规性，以支持企业决策和运营需求。数据治理涉及制定和执行数据管理策略、规则和流程，包括数据分类、数据质量管理、数据安全和隐私保护、数据共享和访问控制、数据存储和备份等方面。数据治理通常需要跨部门合作，包括IT、业务

overfit同步小助手 2024-02-13 03:03:49 0 收藏

卓振江：我的大数据能力提升之路 | 提升之路系列（二）

导读为了发挥清华大学多学科优势，搭建跨学科交叉融合平台，创新跨学科交叉培养模式，培养具有大数据思维和应用创新的“π”型人才，由清华大学研究生院、清华大学大数据研究中心及相关院系共同设计组织的“清华大学大数据能力提升项目”开始实施并深受校内师生的认可。项目通过整合建设课程模块，形成了大数据思维与技能、

overfit同步小助手 2024-02-13 03:03:27 0 收藏

【flink番外篇】15、Flink维表实战之6种实现方式-通过Temporal table实现维表数据join

一、Flink 专栏Flink 专栏系统介绍某一知识点，并辅以具体的示例进行说明。1、Flink 部署系列本部分介绍Flink的部署、配置相关基础内容。2、Flink基础系列本部分介绍Flink 的基础部分，比如术语、架构、编程模型、编程指南、基本的datastream api用法、四大基石等内容。

overfit同步小助手 2024-02-13 00:03:36 0 收藏

Spark---RDD(Key-Value类型转换算子)

从shuffle的角度来看：为了避免占用过多的内存空间，reduceByKey和groupByKey在执行的过程中，都会执行shuffle操作，将数据打散写入到磁盘的临时文件中，而reduceByKey在进行shuffle前会对数据进行预聚合的操作，致使shuffle的效率得到的提升，因为减少了落盘

overfit同步小助手 2024-02-12 18:03:38 0 收藏

《2023大数据产业年度最具投资价值》榜重磅发布丨第六届金猿奖

‍第六届年度金猿榜单/奖项“第六届年度金猿季策划活动——2023大数据产业年度最具投资价值企业榜单/奖项”由金猿X数据猿X上海大数据联盟共同推出。大数据产业创新服务媒体——聚焦数据· 改变商业第六届 “年度金猿季大型主题策划活动”由金猿、数据猿、上海大数据联盟共同组成的金猿组委会发起，在继续深耕大数

overfit同步小助手 2024-02-12 18:03:34 0 收藏

大数据开发之Hadoop（MapReduce）

1、什么是序列化序列化就是把内存中的对象，转换成字节序列（或其它数据传输协议）以便于存储到磁盘（持节化）和网络传输。反序列化就是将收到字节序列（或其它数据传输协议）或者是磁盘的持久化数据，转换成内存中的对象。2、为什么要序列化一般来说，“活的”对象只生存在内存里，关机断电就没有了。而且“活的”对象只

overfit同步小助手 2024-02-12 16:03:50 0 收藏

Spark部署模式

Apache Spark支持多种部署模式，这些模式决定了如何在集群上启动和运行你的Spark应用程序。以下是Spark支持的主要部署模式：

overfit同步小助手 2024-02-12 15:03:50 0 收藏

大数据AI在游戏开发领域的革命

1.背景介绍随着互联网和数字技术的发展，游戏行业已经成为了一个非常繁荣的产业。随着游戏的多样性和复杂性的增加，游戏开发者需要更有创新力和智能的方法来设计和优化游戏。这就是大数据AI在游戏开发领域的出现和发展提供了解决方案。大数据AI技术可以帮助游戏开发者更好地理解玩家的行为和需求，从而提高游戏的玩法

overfit同步小助手 2024-02-12 13:01:41 0 收藏