折腾一晚上的事情,明白了一个道理

感悟:有时候很简单的笨办法,比那些高大上的技术要实用的多。有一个数据同步,大约4亿条记录,没有分区。现在要按照天,小时分区写入到iceberg的分区表中。源数据中本身就是很多几十k大小的非常多的小文件。于是在读取时,总想着要shuffle,合并小文件,于是是这样的:hive_df = spark.t

高效掌握JDBC技术(二)| 掌握ORM思想 | 定义连接数据库的工具类

🔥前言上文讲了JDBC连接数据库的六大步,成功完成了对数据库的修改的读取。那么今天就来学习一下ORM思想,理解面向对象语言与关系型数据库之间的映射关系,学习把连接数据库的方法定义到一个工具类中从而减少重复代码的书写。...

【10. 信号量和管程】

🎉作者简介:👓博主在读机器人研究生,目前研一。对计算机后端感兴趣,喜欢c++,go,python,目前熟悉c++,go语言,数据库,网络编程,了解分布式等相关内容📃个人主页:🔎支持👍就是给予我最大的支持!🎁💛本文摘要💛。

【毕业设计】基于机器学习与大数据的糖尿病预测

本项目以体检数据集为样本进行了机器学习的预测,但是需要注意几个问题:体检数据量太少,仅有1006条可分析数据,这对于糖尿病预测来说是远远不足的,所分析的结果代表性不强。这里的数据糖尿病和正常人基本相当,而真实的数据具有很强的不平衡性。也就是说,糖尿病患者要远少于正常人,这种不平衡的数据集给真实情况下

一篇文章读懂什么是CAP(基础入门)

一篇文章读懂什么是CAP,欢迎打卡,学习交流!

猿创征文|人工智能啾养成之路 - 写代码三天,CSDN治好了我的精神内耗

猿创征文|侯小啾的IT之路 - 写代码三天,CSDN治好了我的精神内耗

es不是实时更新的

es不是实时更新的

趁着中秋节来临之际,学学如何做好团队管理

关于技术管理学习

elasticsearch索引按日期拆分和定期删除

ES索引按日期拆分和定期删除,并且不影响原搜索逻辑

Elasticsearch:简体繁体转换分词器 - STConvert analysis

我的前同事 Medcl 大神,在上也创建了一个转换简体及繁体的分词器。这个在我们的很多的实际应用中也是非常有用的,比如当我的文档是繁体的,但是我们想用中文对它进行搜索。

湖仓一体电商项目(九):业务实现之编写写入DIM层业务代码

编写代码读取Kafka “KAFKA-DIM-TOPIC” topic维度数据通过Phoenix写入到HBase中,我们可以通过topic中每条数据获取该条数据对应的phoenix表名及字段名动态创建phoenix表以及插入数据,这里所有在mysql“lakehousedb.dim_tbl_conf

哈罗数据分析(SQL)笔试

SQL笔试

ES可视化工具--elasticsearch-head--下载、安装、使用

本文介绍ES可视化工具--ElasticSearch-Head的下载与安装的方法。

大数据随记 —— DataFrame 与 RDD 之间的相互转换

在 Scala 中,使用 case class 类型导入 RDD 并转换为 DataFrame,通过 case class 创建 Schema,case class 的参数名称会被利用反射机制作为列名。通过 Spark SQL 的接口创建 RDD 的 Schema,这种方式会让代码比较冗长。这种方法

Flink

Flink 是第三代分布式流处理器,它的功能丰富而强大。

大数据项目中数据倾斜

大数据项目中数据倾斜

大数据精准营销数据分析处理(一)

大数据精准营销数据分析处理(一)

离线数仓(1):什么是数据仓库

数仓面向主题分析的特点在企业中数仓是一个不断维护的工程数仓分层并不局限于经典3层,可以根据自身需求进行调整没有好的架构,只有适合自己业务需求的架构它山之石可以攻玉注:其他 离线数仓 相关文章链接由此进 ->离线数仓文章汇总。...

【大数据】HDFS、Hive、FTP的内网间的相互传递(附脚本获取数据)

汝之观览,吾之幸也!本文讲解生产中会遇到的问题,一般集群都部署在外网,如果集群部署在内网,那么怎么同步之前的Hive数据到外网,或者两个内网间怎么同步Hive数据,本文主要以shell脚本演示。...

登录可以使用的更多功能哦! 登录
作者榜
...
资讯小助手

资讯同步

...
内容小助手

文章同步

...
Deephub

公众号:deephub-imba

...
奕凯

公众号:奕凯的技术栈