【Flink】Flink 记录一个 checkpoint 检查点 越来越大的问题
Flink SQL checkpoint越来越大咋么办,从2个G,现在4个G了,增量同步的,窗口是1小时,watermark是6小时,按道理来说,数据量不应该越来越大啊?在窗口内执行了count(distinct )这些操作。设置了状态的ttl。后端状态存储用的rocksdb。状态如下设置了增量
【大数据基础】淘宝双11数据分析与预测
age_range | 买家年龄分段:1表示年龄小于18,2表示年龄在[18,24],3表示年龄在[25,29],4表示年龄在[30,34],5表示年龄在[35,39],6表示年龄在[40,49],7和8表示年龄大于等于50,0和NULL则表示未知。age_range | 买家年龄分段:1表示年龄<
【ElasticSearch 】IK 分词器安装
Elasticsearch 要使用 ik,就要先构建 ik 的 jar包,这里要用到 maven 包管理工具,而 maven 需要java 环境,而 Elasticsearch 内置了jdk, 所以可以将JAVA_HOME设置为Elasticsearch 内置的jdk上传 maven 安装包打开文件
SpringBoot 2.7教程:SpringBoot 整合 RabbitMQ 项目搭建-2022年最新图文版本
目录一、新建项目springboot-rabbitmq,项目结构如下二、确认pom文件依赖三、配置application.yml四、创建发送消息Controller五、创建消费消息类六、创建交换机、队列、绑定交换机和队列七、测试
Kafka - 主题Topic与消费者消息Offset日志记录机制
kafka topic分区存储消息以及 消息信息存储的形式与日志记录
IDEA配置Hadoop环境-非maven配置版(图文详细)
IDEA配置Hadoop环境-非maven配置版(图文详细)
【算力网络】算力知识
尽管算力这个词在近年来很“火”,但其背后的含义,却很少有人真正了解
什么是大数据? 大数据有哪些应用场景?
大数据技术的发展已经改变了我们对数据的认知和处理方式,大数据是一种新型的数据处理技术,它涵盖了多个领域,包括计算机科学、网络通信、算法理论、应用统计学等。简要来说,大数据可以定义为处理规模庞大复杂度高数据时所需的技术和方法。
elasticsearch-8.5.2快速入门和kibana-8.5.2的使用
官方安装,和ES可视化工具。安装下载过程略。
Hudi-集成Spark之spark-sql方式
hudi 支持使用 bulk_insert 作为写操作的类型,只需要设置两个配置:hoodie.sql.bulk.insert.enable 和 hoodie.sql.insert.mode。(5)通过 CTAS (Create Table As Select)建表为了提高向 hudi 表加载数据的
APP广告变现渠道有哪些?开发者该如何选择?
当APP有了一定的流量、用户规模后,开发者都会考虑接入广告变现,广告变现效率快、规模大,是APP收益最重要的来源之一。APP广告变现平台有哪些?又该如何选择呢?很多开发者对广告变现平台了解不多,本文将介绍APP广告变现常见的平台,以及如何选择对接。
es(Elasticsearch)安装使用(03ik分词器安装篇)
ik分词器 什么是分词把文本转换为一个个的单词,分词称之为analysis。es默认只对英文语句做分词,中文不支持,每个中文字都会被拆分为独立的个体。es 内置分词standard:默认分词,单词会被拆分,大小会转换为小写。simple:按照非字母分词。大写转为小写。whitespace:按照空格分
【业务架构】业务驱动的推荐系统相关技术总结
推荐系统是一种基于用户历史行为和属性信息为用户推荐个性化内容的技术。而业务驱动的推荐系统,是指根据业务需求,将推荐系统集成进业务流程中,通过推荐系统提高业务效率、提升用户体验等目的。以下是一些相关实现技术。
hive表新增字段,指定新增字段位置,删除字段
经验证,hive中修改字段顺序并没有将字段对应的值移动,只是单纯的修改字段名,如果是空表(没有数据),可以使用以上两步;其中CASCADE选项为选填的字段,但是对于分区表,一定要加上,否则其历史分区的元数据信息(metadata)将无法正常更新,导致访问历史分区时会报莫名的错误。背景:项目中,客户使
hive表数据更新insert overwrite/merge into
根据甲方要求,需要对大数据平台指定表(hive、impala表)的历史数据[2021-01-01至2023-03-29]指定字段进行批量更新,然后把表同步到Oracle。hive有8张表更新,其中4张大表【分区表】(数据量分别为:1038738976、260958144、25860509、28670
车联网V2X通信技术及应用介绍
V2X技术影响用户体验的主要系统指标有延时时间、可靠性、数据速率、通信覆盖范围移动性、用户密度、安全性等。
DTC趋势 | 2022年值得关注的10个DTC趋势
DTC创新不仅是数字原生品牌能玩转的策略,传统零售企业同样也积极地布局DTC模式,从流量争夺转型到聚焦 品牌价值 和 用户体验 提升的战略重点上,以应对后疫情时代的激烈竞争环境。随着DTC模式受到新老品牌的追捧,预计到2024年,DTC品牌的销售额将达到1612.2亿美元。本文阐述2022年值得关注
大数据实战 --- 世界新冠疫情数据分析
大数据实战 --- 世界新冠疫情数据分析
Elasticsearch:Standard Text Analyzer - 标准文本分析器
Elasticsearch 提供了超过很多开箱即用的分析器,我们可以在文本分析阶段使用它们。这些分析器很可能足以满足基本情况,但如果需要创建自定义分析器,可以通过使用构成该模块的所需组件实例化一个新的分析器模块来实现。有关上述的分析器的更多描述,请参阅我之前的文章 “标准分析器(standard a
docker快速部署hue+hue集成hive
首先需要安装hive,hive的安装在安装完成之后,使用脚本命令启动hdfs和hive的相关服务。