大数据 - overfit.cn

Kafka集群部署与测试

Kafka集群部署与测试安装Kafka①、Alt+P 拷贝安装包 cd /opt/moduletar -zxvf /opt/software/kafka_2.11-2.0.0.tgz -C /opt/module/②、修改配置文件vi /opt/module/kafka_2.11-2.0.0/co

overfit同步小助手 2022-09-13 10:24:35 0 收藏

湖仓一体电商项目（十一）：编写写入DWS层业务代码

DWS层主要是存放大宽表数据，此业务中主要是针对Kafka topic “KAFKA-DWD-BROWSE-LOG-TOPIC”中用户浏览商品日志数据关联HBase中“ODS_PRODUCT_CATEGORY”商品分类表与“ODS_PRODUCT_INFO”商品表维度数据获取浏览商品主题大宽表。Fl

overfit同步小助手 2022-09-11 11:24:37 0 收藏

湖仓一体电商项目（十二）：编写写入DM层业务代码

DM层主要是报表数据，针对实时业务将DM层设置在Clickhouse中，在此业务中DM层主要存储的是通过Flink读取Kafka “KAFKA-DWS-BROWSE-LOG-WIDE-TOPIC” topic中的数据进行设置窗口分析，每隔10s设置滚动窗口统计该窗口内访问商品及商品一级、二级分类分析

overfit同步小助手 2022-09-11 11:24:29 0 收藏

spark3总结——分区数对带有初始值聚合操作的影响

overfit同步小助手 2022-09-10 07:54:15 0 收藏

SparkSQL 总结（未完待续）

Spark SQL 是Spark 用于结构化数据(structured data)处理的 Spark 模块。

overfit同步小助手 2022-09-10 07:54:13 0 收藏

Hadoop 集群搭建

一，Hadoop 的安装模式二，基础环境准备-选择操作系统基础环境准备-安装 VMware下载 VMware的平台安装完成后基础环境准备-部署 Ubuntu下载 Ubuntu 18 镜像http://mirrors.aliyun.com/ubuntu-releases/18.04/基础环境准备-部署

overfit同步小助手 2022-09-10 07:54:04 0 收藏

国外大佬的 4 个项目 yyds

推荐一位国外全栈开发者大神：Alyssa，在 Github 上有 5.34K 的关注者。她是一名全栈开发者、Sonuum 公司的创始人。被 Maker Mag 评为 2018 最佳女性 Maker，并两次入围 Product Hunt Maker of the Year 决赛。注：Product H

overfit同步小助手 2022-09-10 07:52:49 0 收藏

Flink高频面试题( 精简 )

作为大数据领域炙手可热的大数据组件，Flink作为大数据行业跳槽必问的组件，整理一些Flink相关的面试题供大家参考，有些题言简意赅即可，大多数的博客冗余一堆的知识点，看完要好久，我想帮大家提炼总结出核心的点，以帮助大家临阵磨枪，短时间掌握，当你把知识提炼出来，你会发现你的知识进步了，当你把简单提炼

overfit同步小助手 2022-09-09 07:54:12 0 收藏

记一次HBase启动异常的恢复历程

我去hdfs这个表对应的目录下面查看发现.regioninfo文件是存在的，但meta表中确实没有相关信息，既然是这样情况，那理论上通过-fixMeta应该就可以修复Meta数据，但是实际上执行-fixMeta后并没有实际的效果。至些，这个HBase启动的问题算是彻底修复了，虽然，但是，关于最后的.

overfit同步小助手 2022-09-09 07:54:08 0 收藏

第一章初始Hadoop大数据技术

Hadoop简介，发展史和基本原理的介绍

overfit同步小助手 2022-09-09 07:52:33 0 收藏

1分钟理解Flink中Watermark机制

1分钟理解Flink中Watermark

overfit同步小助手 2022-09-08 07:54:10 0 收藏

通过Elasticsearch 8、Kibana、Filebeat实现日志的监控及统计

overfit同步小助手 2022-09-08 07:54:01 0 收藏

Elasticsearch：无需基本身份验证即可创建用于访问的不记名令牌

在很多的时候我们并不希望把用户名及密码分发出去，这是因为一旦拥有用户名及密码，你就可以直接登录系统，你甚至可以做更多的事情。另外一方面，用户名及密码还没有期限设定，除非我们在系统中把这个用户删除掉。为了能够使得客户端能够正常访问 Elasticsearch 集群，我们可以创建 API key 来进行

overfit同步小助手 2022-09-07 10:54:24 0 收藏

大数据_湖仓一体:下一代存储解决方案

湖仓一体可以存储、优化、分析和访问所有类型的数据，无论数据是结构化的、半结构化的，还是非结构化的，这一点和数据库不同，但和数据湖差不多。湖仓一体可以存储、优化、分析和访问所有类型的数据，无论数据是结构化的、半结构化的，还是非结构化的，这一点和数据库不同，但和数据湖差不多。新的系统设计让湖仓一体成为可

overfit同步小助手 2022-09-07 10:54:13 0 收藏

【毕业设计】基于大数据的高考数据分析 - python 大数据可视化

🚩 基于大数据的高考数据分析🥇学长这里给一个题目综合评分(每项满分5分)🧿 选题指导, 项目分享：https://gitee.com/dancheng-senior/project-sharing-1/blob/master/%E6%AF%95%E8%AE%BE%E6%8C%87%E5%AF

overfit同步小助手 2022-09-07 10:54:09 0 收藏

猿创征文｜【云原生 | 27】Docker部署运行开源消息队列实现RabbitMQ

AMQP架构中有两个主要组件：Exchange和Queue，两者都在服务端，又称Broker，由RabbitMQ实现的。客户端通常有Producer和Consumer两种类型

overfit同步小助手 2022-09-07 10:53:56 0 收藏

day04 MYSQL多表查询操作

在表关系的笛卡尔积中，不仅保留表关系中所有匹配的数据记录，而且还保留部分不匹配的记录。关系：一对一关系，多用于单表拆分，将一张表的基础字段放在一张表中，其他详情字段放在另一张表中，以提升操作效率。在表关系的笛卡尔积数据记录中，保留表关系中所有匹配的数据记录，舍弃不匹配的数据记录。在具体实现连接操作时

overfit同步小助手 2022-09-06 07:54:35 0 收藏

折腾一晚上的事情，明白了一个道理

感悟：有时候很简单的笨办法，比那些高大上的技术要实用的多。有一个数据同步，大约4亿条记录，没有分区。现在要按照天，小时分区写入到iceberg的分区表中。源数据中本身就是很多几十k大小的非常多的小文件。于是在读取时，总想着要shuffle，合并小文件,于是是这样的：hive_df = spark.t

overfit同步小助手 2022-09-06 07:53:53 0 收藏

高效掌握JDBC技术（二）| 掌握ORM思想 | 定义连接数据库的工具类

🔥前言上文讲了JDBC连接数据库的六大步，成功完成了对数据库的修改的读取。那么今天就来学习一下ORM思想，理解面向对象语言与关系型数据库之间的映射关系，学习把连接数据库的方法定义到一个工具类中从而减少重复代码的书写。...

overfit同步小助手 2022-09-05 07:54:34 0 收藏

【10. 信号量和管程】

🎉作者简介:👓博主在读机器人研究生，目前研一。对计算机后端感兴趣，喜欢c++,go,python,目前熟悉c++，go语言，数据库，网络编程，了解分布式等相关内容📃个人主页：🔎支持👍就是给予我最大的支持！🎁💛本文摘要💛。

overfit同步小助手 2022-09-05 07:54:21 0 收藏