大数据 - overfit.cn

elasticsearch索引按日期拆分和定期删除

ES索引按日期拆分和定期删除，并且不影响原搜索逻辑

overfit同步小助手 2022-09-04 07:54:08 0 收藏

Elasticsearch：简体繁体转换分词器 - STConvert analysis

我的前同事 Medcl 大神，在上也创建了一个转换简体及繁体的分词器。这个在我们的很多的实际应用中也是非常有用的，比如当我的文档是繁体的，但是我们想用中文对它进行搜索。

overfit同步小助手 2022-09-03 07:53:51 0 收藏

湖仓一体电商项目（九）：业务实现之编写写入DIM层业务代码

编写代码读取Kafka “KAFKA-DIM-TOPIC” topic维度数据通过Phoenix写入到HBase中，我们可以通过topic中每条数据获取该条数据对应的phoenix表名及字段名动态创建phoenix表以及插入数据，这里所有在mysql“lakehousedb.dim_tbl_conf

overfit同步小助手 2022-09-03 07:53:46 0 收藏

哈罗数据分析（SQL)笔试

SQL笔试

overfit同步小助手 2022-09-02 14:55:25 0 收藏

ES可视化工具--elasticsearch-head--下载、安装、使用

本文介绍ES可视化工具--ElasticSearch-Head的下载与安装的方法。

overfit同步小助手 2022-09-02 14:54:10 0 收藏

大数据随记 —— DataFrame 与 RDD 之间的相互转换

在 Scala 中，使用 case class 类型导入 RDD 并转换为 DataFrame，通过 case class 创建 Schema，case class 的参数名称会被利用反射机制作为列名。通过 Spark SQL 的接口创建 RDD 的 Schema，这种方式会让代码比较冗长。这种方法

overfit同步小助手 2022-09-02 14:54:04 0 收藏

Flink

Flink 是第三代分布式流处理器，它的功能丰富而强大。

overfit同步小助手 2022-09-02 14:54:01 0 收藏

大数据项目中数据倾斜

overfit同步小助手 2022-09-02 07:11:07 0 收藏

大数据精准营销数据分析处理（一）

overfit同步小助手 2022-09-01 07:11:17 0 收藏

离线数仓（1）：什么是数据仓库

数仓面向主题分析的特点在企业中数仓是一个不断维护的工程数仓分层并不局限于经典3层，可以根据自身需求进行调整没有好的架构，只有适合自己业务需求的架构它山之石可以攻玉注：其他离线数仓相关文章链接由此进 ->离线数仓文章汇总。...

overfit同步小助手 2022-09-01 07:11:11 0 收藏

【大数据】HDFS、Hive、FTP的内网间的相互传递（附脚本获取数据）

汝之观览，吾之幸也！本文讲解生产中会遇到的问题，一般集群都部署在外网，如果集群部署在内网，那么怎么同步之前的Hive数据到外网，或者两个内网间怎么同步Hive数据，本文主要以shell脚本演示。...

overfit同步小助手 2022-09-01 07:11:03 0 收藏

钱扣了，订单却是未支付，用户炸了——聊聊如何防止支付掉单

给客服姐姐下跪了……

overfit同步小助手 2022-09-01 07:10:27 0 收藏

程序员职业生涯系列：关于技术能力的思考与总结

引子儒、释（佛）、道三家思想：释（佛家）：处理好人与心的关系，我们要战胜自己；儒（儒家）：处理好人与人的关系，我们要团结好他人；道（道家）：处理好人与自然的关系，我们应该顺势而为。明人陆绍珩《醉古堂剑扫》自叙有云：一愿识尽人间好人，二愿读尽世间好书，三愿看尽世间好山水。或曰：静则安能，但身到处，莫放

overfit同步小助手 2022-08-31 07:55:47 0 收藏

学习大数据必须掌握哪些核心技术？

大数据发展到今天，已经是越来越成熟，无论是大型互联网公司，还是小型的创业公司，都能看见大数据的身影。那么，学习大数据必须掌握哪些核心技术呢？数据采集就是将这些包括移动互联网数据、社交网络的数据等各种来源的数据，写入数据仓库中，把零散的数据整合在一起，对这些数据进行综合分析。Flume NG作为实时日

overfit同步小助手 2022-08-31 07:55:35 0 收藏

ClickHouse与Elasticsearch压测实践

众所周知，ClickHouse在基本场景表现非常优秀，性能优于ES，但是我们实际的业务查询中有很多是复杂的业务查询场景，甚至是大数量的查询，所以为了在双十一业务峰值来到前，确保大促活动峰值业务稳定性，针对ClickHouse 和Elasticsearch在我们实际业务场景中是否拥有优秀的抗压能力，通

overfit同步小助手 2022-08-31 07:55:28 0 收藏

Flink - 大状态 ValueState 实践与优化

工业场景下 Flink 经常使用 ValueState + RocksDBStateBackend 的组合，针对不断增大的 ValueState 或者数量过大的 ValueState，RocksDBStateBackend 使用了 TaskManager 所在机器的本地目录，从而突破 JVM Hea

overfit同步小助手 2022-08-31 07:55:21 0 收藏

湖仓一体电商项目（八）：业务实现之编写写入ODS层业务代码

以上两个方面中第一个方面需要再Hive中预先创建对应的Iceberg表，才能写入，第二个方面不好分辨topic“KAFKA-DB-BUSSINESS-DATA”中哪些binlog数据是事实数据哪些binlog是维度数据，所以这里我们在mysql 配置表“lakehousedb.dim_tbl_con

overfit同步小助手 2022-08-31 07:55:08 0 收藏

ElasticSearch高阶操作

默认数据库有下面这张表表中有N条数据类似于下面这种我们通过kibana创建索引结构然后通过自定义的接口把mysql里的数据导入到ES中去。

overfit同步小助手 2022-08-30 08:55:33 0 收藏

hive统计每五分钟交易量SQL

1，通过函数 floor()、ceil()、date_format()函数分别获取交易时间字段对应的五分总字段。方法二通过lateral view函数配合explode及split 实现时间列表初始化。

overfit同步小助手 2022-08-30 08:55:25 0 收藏

hadoop生态圈面试精华之MapReduce(二)

overfit同步小助手 2022-08-30 08:55:22 0 收藏