大数据 - overfit.cn

37、Flink 的窗口函数（Window Functions）详解

Flink 的窗口函数（Window Functions）详解

overfit同步小助手 2024-06-29 16:04:00 0 收藏

大数据智能风控：模型、平台与业务实践

商业银行作为金融中介机构，经营的本质是对风险的运营和管理。金融科技的高速发展和国家政策的扶持，驱动商业银行向数字化、信息化、智能化的更高阶段发展。在此背景下，商业银行更应抓住数字化转型机遇，建立覆盖风险识别、计量、分析、处置全流程的智能风控体系，全面提升银行风险防控能力。传统的风控体系中定性风险管理

overfit同步小助手 2024-06-29 16:03:43 0 收藏

Hive&Hadoop面试常用问题（精修篇）

该章节主要针对Hive和Hadoop做面试的常用问题做了汇总和解答

overfit同步小助手 2024-06-29 16:03:26 0 收藏

大数据学习——linux操作系统（Centos）安装mysql(Hive的元数据库)

overfit同步小助手 2024-06-29 14:03:48 0 收藏

eureka报错：链接8761被拒绝

微服务部署后，eureka服务会不断报上面的错误 org.apache.http.conn.HttpHostConnectException: Connect to localhost:8761 [localhost/127.0.0.1, localhost/0:0:0:0:0:0:0:1] fai

overfit同步小助手 2024-06-29 14:03:29 0 收藏

大数据实时处理框架之Flink win10快速部署

一、依赖环境安装。

overfit同步小助手 2024-06-29 13:03:33 0 收藏

不止是只有维度建模，数据仓库还有Data Vault建模

在数据仓库设计中，传统的星型和雪花型模型有着各自的优势和劣势。随着数据量的增大和数据源的多样化，Data Vault（数据仓库）建模方法逐渐受到关注和应用。Data Vault建模是一种灵活、可扩展、适应性强的建模方法，特别适用于复杂和动态的数据环境

overfit同步小助手 2024-06-29 11:03:25 0 收藏

【spark数据处理】文件上传+文件读取+文件筛选

对多列进行分组，并对每组进行聚合计数,这段代码首先创建了一个SparkSession实例，然后创建了一个包含三列（"columnName1", "columnName2", "col"）的DataFrame。hadoop fs -put /data/wenjian1.csv /data //上传

overfit同步小助手 2024-06-29 11:03:16 0 收藏

【HBase入门与实战】一文搞懂HBase!

1.HBase的引入、定义和特点 2.NoSQL数据库的概念和与关系型数据库的区别 3.HBase的物理架构和逻辑架构 4.HBase Shell的基本命令使用 5.HBase的应用场景

overfit同步小助手 2024-06-29 09:03:15 0 收藏

网约车大数据综合项目——数据可视化Flask+Echarts

网约车大数据综合项目——数据可视化Flask+Echarts第1关使用饼图展示撤销订单理由最多的前10种理由class Config(object): #连接数据库 ########## Begin ########## SQLALCHEMY_DATABASE_URI = "my

overfit同步小助手 2024-06-29 08:03:58 0 收藏

Flink CheckpointCoordinator原理与代码实例讲解

Flink CheckpointCoordinator原理与代码实例讲解1. 背景介绍1.1 Flink 与流处理Apache Flink 是一个开源的分布式流处理和批处理框架,它提供了一

overfit同步小助手 2024-06-29 08:03:49 0 收藏

基于Spark的学情日志数据分析可视化系统

overfit同步小助手 2024-06-29 08:03:33 0 收藏

【Kafka】1.Kafka核心概念、应用场景、常见问题及异常

Kafka 是一个分布式流处理平台，是 Apache 软件基金会的顶级项目。它主要用于构建实时数据管道和流式应用程序。它能够高效地处理高吞吐量的数据，并支持消息发布和订阅模型。Kafka 的主要用途包括实时分析、事件源、日志聚合等。

overfit同步小助手 2024-06-29 07:03:50 0 收藏

Zookeeper：分布式系统中的协调者

在当今的分布式系统环境中，服务的协调和管理是一个复杂且关键的问题。Zookeeper，作为一个开源的分布式协调服务，为这个问题提供了一个高效的解决方案。它是许多分布式应用和服务的基础设施，例如Hadoop、HBase和Kafka等。本文将探讨Zookeeper的核心概念、功能以及它在分布式系统中的作

overfit同步小助手 2024-06-29 07:03:46 0 收藏

zookeeper的安装

root@master zookeeper]# cd conf/ #进入zookeeper的conf目录。dataLogDir=/opt/programs/zookeeper/log/ #修改zookeeper的日志存储路径。dataDir=/opt/programs/zookeep

overfit同步小助手 2024-06-29 04:03:33 0 收藏

大数据-数据分析初步学习，待补充

日活跃用户，定义一个自然日不重复（去重）的用户，跨时区（如全球服务），则关心最近24小时。一般PV/PV，UV/UV，也有PV/UV,eg：详情页PV/详情页UV=人均页面查看数。月活跃用户，MAU

overfit同步小助手 2024-06-29 03:03:43 0 收藏

Kafka 实战 - Kafka优化之解决消息积压问题

在 Apache Kafka 中，消息积压问题通常是指由于消费者消费能力不足或系统故障等原因，导致消息在主题分区中累积，无法及时处理，进而形成大量未消费的消息。

overfit同步小助手 2024-06-29 01:03:40 0 收藏

ZooKeeper 面试题

chubby 是 google 的，完全实现 paxos 算法，不开源。新时代）用来标识 leader 周期，如果有新的 leader 产生出来，epoch。对于第一类，我们将 zookeeper 上的一个 znode 看作是一把锁，通过 createznode。提出的时候加上了 zxid，zxid

overfit同步小助手 2024-06-28 22:03:48 0 收藏

【Hive】HIVE运行卡死没反应

其实呢，我最开始就开始尝试打开yarn客户端界面了，但是没有打开，其实我发觉到我用的地址错误了，因为yarn并没有部署在了hadoop102上面，而我发觉之后立马改正，可还是打不开，我不由得觉得我的地址是不是真的输错了，哈哈哈哈，挺逗的，卡了好几分钟，最后在部署yarn的虚拟机(hadoop103)

overfit同步小助手 2024-06-28 22:03:44 0 收藏

【大数据复习】第7章 MapReduce（重中之重）

Master：是整个集群的唯一的全局管理者，功能是作业管理、状态监控和任务调度等，即MapReduce中的JobTracker。（3）每个节点都有一定数量的 Map slot 和 Reduce slot，它们的数量可以根据集群配置和需求动态分配。，以便后续Reduce阶段对同一个键的值进行聚合处理。

overfit同步小助手 2024-06-28 20:03:16 0 收藏