37、Flink 的窗口函数(Window Functions)详解
Flink 的窗口函数(Window Functions)详解
大数据智能风控:模型、平台与业务实践
商业银行作为金融中介机构,经营的本质是对风险的运营和管理。金融科技的高速发展和国家政策的扶持,驱动商业银行向数字化、信息化、智能化的更高阶段发展。在此背景下,商业银行更应抓住数字化转型机遇,建立覆盖风险识别、计量、分析、处置全流程的智能风控体系,全面提升银行风险防控能力。传统的风控体系中定性风险管理
Hive&Hadoop面试常用问题(精修篇)
该章节主要针对Hive和Hadoop做面试的常用问题做了汇总和解答
大数据学习——linux操作系统(Centos)安装mysql(Hive的元数据库)
大数据学习——linux操作系统(Centos)安装mysql(Hive的元数据库)
eureka报错:链接8761被拒绝
微服务部署后,eureka服务会不断报上面的错误 org.apache.http.conn.HttpHostConnectException: Connect to localhost:8761 [localhost/127.0.0.1, localhost/0:0:0:0:0:0:0:1] fai
大数据实时处理框架之Flink win10快速部署
一、依赖环境安装。
不止是只有维度建模,数据仓库还有Data Vault建模
在数据仓库设计中,传统的星型和雪花型模型有着各自的优势和劣势。随着数据量的增大和数据源的多样化,Data Vault(数据仓库)建模方法逐渐受到关注和应用。Data Vault建模是一种灵活、可扩展、适应性强的建模方法,特别适用于复杂和动态的数据环境
【spark数据处理】文件上传+文件读取+文件筛选
对多列进行分组,并对每组进行聚合计数,这段代码首先创建了一个SparkSession实例,然后创建了一个包含三列("columnName1", "columnName2", "col")的DataFrame。hadoop fs -put /data/wenjian1.csv /data //上传
【HBase入门与实战】一文搞懂HBase!
1.HBase的引入、定义和特点 2.NoSQL数据库的概念和与关系型数据库的区别 3.HBase的物理架构和逻辑架构 4.HBase Shell的基本命令使用 5.HBase的应用场景
网约车大数据综合项目——数据可视化Flask+Echarts
网约车大数据综合项目——数据可视化Flask+Echarts第1关 使用饼图展示撤销订单理由最多的前10种理由class Config(object): #连接数据库 ########## Begin ########## SQLALCHEMY_DATABASE_URI = "my
Flink CheckpointCoordinator原理与代码实例讲解
Flink CheckpointCoordinator原理与代码实例讲解1. 背景介绍1.1 Flink 与流处理Apache Flink 是一个开源的分布式流处理和批处理框架,它提供了一
基于Spark的学情日志数据分析可视化系统
基于Spark的学情日志数据分析可视化系统
【Kafka】1.Kafka核心概念、应用场景、常见问题及异常
Kafka 是一个分布式流处理平台,是 Apache 软件基金会的顶级项目。它主要用于构建实时数据管道和流式应用程序。它能够高效地处理高吞吐量的数据,并支持消息发布和订阅模型。Kafka 的主要用途包括实时分析、事件源、日志聚合等。
Zookeeper:分布式系统中的协调者
在当今的分布式系统环境中,服务的协调和管理是一个复杂且关键的问题。Zookeeper,作为一个开源的分布式协调服务,为这个问题提供了一个高效的解决方案。它是许多分布式应用和服务的基础设施,例如Hadoop、HBase和Kafka等。本文将探讨Zookeeper的核心概念、功能以及它在分布式系统中的作
zookeeper的安装
root@master zookeeper]# cd conf/ #进入zookeeper的conf目录。dataLogDir=/opt/programs/zookeeper/log/ #修改zookeeper的日志存储路径。dataDir=/opt/programs/zookeep
大数据-数据分析初步学习,待补充
日活跃用户,定义一个自然日不重复(去重)的用户,跨时区(如全球服务),则关心最近24小时。一般PV/PV,UV/UV,也有PV/UV,eg:详情页PV/详情页UV=人均页面查看数。月活跃用户,MAU
Kafka 实战 - Kafka优化之解决消息积压问题
在 Apache Kafka 中,消息积压问题通常是指由于消费者消费能力不足或系统故障等原因,导致消息在主题分区中累积,无法及时处理,进而形成大量未消费的消息。
ZooKeeper 面试题
chubby 是 google 的,完全实现 paxos 算法,不开源。新时代)用来标识 leader 周期,如果有新的 leader 产生出来,epoch。对于第一类,我们将 zookeeper 上的一个 znode 看作是一把锁,通过 createznode。提出的时候加上了 zxid,zxid
【Hive】HIVE运行卡死没反应
其实呢,我最开始就开始尝试打开yarn客户端界面了,但是没有打开,其实我发觉到我用的地址错误了,因为yarn并没有部署在了hadoop102上面,而我发觉之后立马改正,可还是打不开,我不由得觉得我的地址是不是真的输错了,哈哈哈哈,挺逗的,卡了好几分钟,最后在部署yarn的虚拟机(hadoop103)
【大数据 复习】第7章 MapReduce(重中之重)
Master:是整个集群的唯一的全局管理者,功能是作业管理、状态监控和任务调度等,即MapReduce中的JobTracker。(3)每个节点都有一定数量的 Map slot 和 Reduce slot,它们的数量可以根据集群配置和需求动态分配。,以便后续Reduce阶段对同一个键的值进行聚合处理。