虚拟机 安装jdk及hadoop单机版
在虚拟机上进行jdk及hadoop单机版安装,对如何配置虚拟机上的环境变量做了详细的描述,以及hadoop安装出现错误如何查找
HBase的数据模型和存储原理
类似于关系型数据库的 DatabBase 概念,每个命名空间下有多个表。HBase有两个自带的命名空间,分别是 hbase 和 default,hbase 中存放的是 HBase 内置的表,default 表是用户默认使用的命名空间。类似于一个表的子表,表中的一部分。HBase中的一个表被拆分成多个
数仓工具—Hive实战之GenericUDF使用详解(24)
GenericUDF 使用起来相比UDF 更复杂,但是我们也介绍了它支持复杂数据结构,性能更高,需要注意的是GenericUDF是抽象类不是接口,关于GenericUDF的使用的复杂案例可以参考我们的UDAF批量调用外部请求。
Flink-输出算子(Sink)使用
flink输出到kafka,elasticsearch,redis
flink程序在消费kafka数据时出现Error sending fetch request问题
在程序已经稳定运行多天、未对代码做任何修改、查看所消费数据源未出现数据增多的情况下,有一个flink程序最近出现了积压问题,很是疑惑,观察几天并查看了日志发现,每当出现加压时便会伴随该日志出现,因此便着手解决该问题。...
大数据下的高级算法:hyperloglog,统计海量数据下不同元素的个数
redis中hyperloglog算法和数据结构的原理
大数据技术之Hadoop集群配置
作者简介:大家好我是小唐同学(๑>
大数据面试常见问题(七)——面试部分
如果千万的表格有分区,那么直接读取数据全量写入到对应的例如今天的分区中;如果是个普通的表格,那么可以使用insert into table进行数据的追加 select * from 库名.表名1.1 定义源数据抽取到ods层中,同一个业务日期数据中包含前一天或者后一天凌晨附近的数据或者丢失当天的变更
智慧工厂数字孪生建设方案
数字化转型是我国经济社会未来发展的必由之路,数字孪生技术作为推动实现企业数字化转型、促进数字经济发展的重要抓手,并在产品设计制造、生产监管、工艺优化、仿真验证起到重要作用。
elasticsearch 7.9.3知识归纳整理(一)之 es,kibana,ik的下载安装
es,kibana,ik的下载安装
实际业务读取Hive数据库(2023年2月)
python中hive引擎读数的封装
大数据面试核心101问【大厂超级喜欢这些题】
1. HDFS的架构 72. HDFS的读写流程 73. 小文件过多有什么危害,你知道的解决办法有哪些 84. Secondary NameNode 了解吗,它的工作机制是怎样的 85. 简述MapReduce整个流程 96. join原理 97. yarn 的任务提交流程是怎样的 108. 简述H
F5张振伦:让应用安全、快速、可靠地交付到需要的地方丨2022首届全球数字生态大会
F5如何让安全和敏捷兼得?
Linux - awk命令详解
目录1. awk命令1.1 awk工作原理1.2 awk语法1.2.1 awk完整语法示例:1.2.1 awk工作流程1.3 指定分隔符1.3.1 -F 指定分隔符1.3.2 指定输出分隔符2. free命令2.1 free命令各项含义 2.1.1 什么时候会使用交换分区?2
最全面的github pages搭建个人博客教程
作为一个程序员怎么能没有自己的个人博客呢,这里详细记录和分享我的博客搭建经验,让你轻轻松松拥有自己的博客网站。傻瓜式一站式教你用 github pages 来搭建博客,详细记录全过程,保证你能学会。如果你是非程序员或者不关系技术细节,只需花 3 分钟阅读前面 5 个章节内容,就能轻松拥有自己的博客。
关联规则挖掘(Apriori算法和FP-Growth算法)
Apriori算法的频繁项集的方式是:先产生低阶频繁项集(从1开始的)的,再由低阶频繁项集产生高阶候选项集,高阶候选项集经过支持度的度量筛选产生,最后生成同阶频繁项集。这是不断重复的“产生-测试”的过程。而FP-growth算法采用是完全不同的方式,算法的第一个核心是压缩数据集,采用的是FP_tre
Doris总结-数据导入导出
Doris导入导出功能总结
如何在一台电脑安装多个版本的JDK
如何在一台电脑安装多个版本的JDK
Windows 下 MongoDB 6 详细安装指北
今天学习MongoDB的安装,最新版本为6.0.3,但网上存在许多5的安装,差异还是蛮大的,进入shell的方式也不同(后文会提到),此博客记录MongoDB 6.0.3的安装过程,并附加简单的MongoDB指令,以及基于Python编程操作MongoDB数据库。
Flink学习笔记(一)概述
1.Flink是一个分布式流处理框架,它能够在大规模的数据流上进行实时计算和批处理。Flink支持丰富的API,包括DataStream API和DataSet API,可以在多种计算场景中使用,例如实时数据处理、批处理、图形计算和机器学习等。Flink还具有高可用性、低延迟、高吞吐量和高扩展性等特