大数据 - overfit.cn

Flink CDC详细教程（介绍、原理、代码样例）

CDC 是变更数据捕获（Change Data Capture）技术的缩写，它可以将源数据库（Source）的增量变动记录，同步到一个或多个数据目的（Sink）。在同步过程中，还可以对数据进行一定的处理，例如分组（GROUP BY）、多表的关联（JOIN）等。例如对于电商平台，用户的订单会实时写入到

overfit同步小助手 2023-03-29 04:04:51 0 收藏

Elasticsearch实战 | 怎么通过Elasticsearch实现模糊查询？

怎么通过elasticsearch实现模糊查询呢？match_phrase和match_phrase_prefix的异同和应用

overfit同步小助手 2023-03-29 04:04:46 0 收藏

SpringCloud学习笔记（二）Eureka 服务注册与发现

SpringCloud封装了Netflix公司开发的Eureka模块来实现服务治理在传统的rpc远程调用框架中，管理每个服务与服务之间依赖关系比较复杂，管理比较复杂，所以需要使用服务治理，管理服务于服务之间依赖关系，可以实现服务调用、负载均衡、容错等，实现服务发现与注册。Eureka采用了CS的设计

overfit同步小助手 2023-03-29 04:04:37 0 收藏

如何确定kafka与zookeeper版本的对应关系

授人以渔式确定kafka与zookeeper版本的对应关系

overfit同步小助手 2023-03-29 04:04:32 0 收藏

售前工程师职业生涯五个段位，从写解决方案到营销大师的蜕变

售前工程师职业生涯五个段位，从写解决方案到营销大师的蜕变。售前工程师走的是技术和市场的路线，做的是技术销售的工作，成为营销管理者也是顺理成章的。即使中途转为销售人员，留意客户关系的培育，但到底是技术出身，与纯做客户关系的销售还是有差异的，进展到销售管理层次的，与营销管理的进展有些异曲同工的意思

overfit同步小助手 2023-03-29 04:04:27 0 收藏

hive静态分区和动态分区

真正理解动态分区的实践

overfit同步小助手 2023-03-29 04:04:22 0 收藏

【数据仓库-4】-- 提取、转换、装载(ETL)

又如，性别字段，有些系统使用的是1和0，有些是"M"和"F"，有些是"男’和"女"，统一成"M"和"F"。假设一个数据仓库系统，在每天夜里的业务低峰时间从操作型源系统抽取数据，那么增量抽取只需要过去24小时内发生变化的数据。对于流水表（只增加，不修改的表），全量数据入仓后，后续的数据，只需要按分区存

overfit同步小助手 2023-03-29 04:04:19 0 收藏

11.定时任务&定时线程池详解

当我们不用任务框架时，我们想自己写一个定时任务时，我们能想起那个工具类呢？Timer ？还有吗？不知道了，下面我们要讲下ScheduledThreadPoolExecutor，定时任务线程池，可以执行一次任务，还可以执行周期性任务。

overfit同步小助手 2023-03-29 04:04:16 0 收藏

Flink -- 内置函数(ALL)

目录比较函数1.比较函数比较函数的函数名和功能描述如下：函数名功能描述函数名功能描述 value1 = value2 比较 value1 和 value2 是否相等，如果相等则返回 TRUE，如果不相等则返回 FALSE。

overfit同步小助手 2023-03-29 04:04:13 0 收藏

golang学习之go连接Kafka

window wsl 安装 java zookeeper kafka 及golang 连接kafka

overfit同步小助手 2023-03-29 04:04:10 0 收藏

【大数据监控】Grafana、Spark、HDFS、YARN、Hbase指标性能监控安装部署详细文档

Grafana 是一款开源的数据可视化工具，使用 Grafana 可以非常轻松的将数据转成图表(如下图)的展现形式来做到数据监控以及数据统计。

overfit同步小助手 2023-03-29 03:05:18 0 收藏

Flink配置Yarn日志聚合、配置历史日志。

yarn容器退出之后，默认是不保存日志的。所以需要开启JobHistoryServer. 无论Flink还是Spark都支持自建集群(standalone cluster)。但是为了保证稳定性和资源隔离等，生产环境里的任务最好借助资源管理框架(如Yarn)运行。任务运行在yarn上，查询日志就可能不

overfit同步小助手 2023-03-29 03:05:15 0 收藏

Kafka 学习笔记

为什么使用消息队列？以用户下单购买商品的行为举例，在使用微服务架构时，我们需要调用多个服务。传统的调用方式是同步调用，这会存在一定的性能问题使用消息队列可以实现异步的通信方式，相比于同步的通信⽅式，异步的⽅式可以让上游快速成功，极大提高系统的吞吐量。在分布式系统中，通过下游多个服务的分布式事务的保障

overfit同步小助手 2023-03-29 03:05:07 0 收藏

3月5日，加入线上对话，点燃科技行业女性影响力！

3月5日（周日）上午10-12点，在三八妇女节来临之际，Jina AI 联合将门创投、OpenMMLab、亚马逊云科技、稀土掘金、开源中国、CSDN等 14 家科技行业伙伴，发起了第二届「Impact Tech, She Can」线上对话。通过 2 场圆桌对话、1 场技术分享，希望让大家全方位感受到

overfit同步小助手 2023-03-29 03:05:03 0 收藏

Docker专题（五）之端口映射与容器互联

overfit同步小助手 2023-03-29 03:05:01 0 收藏

Flink日志文件配置

因为在正常的情况下，Flink的流数据是非常大的，有时候会使用print()打印数据自己查看，有时候为了查找问题会开启debug日志，就会导致日志文件非常大，通过Web UI查看对应的日志文件是会非常卡，所以首先将日志文件按照大小滚动生成文件，我们在查看时不会因为某个文件非常大导致Web UI界面卡

overfit同步小助手 2023-03-29 03:04:53 0 收藏

IOT云平台 simple（6）springboot netty实现IOT云平台基本的架构（mqtt、Rabbitmq）

本章首先简单介绍了IOT云平台最基本的架构，然后基于springboot netty实现IOT Server；最后进行了测试验证。

overfit同步小助手 2023-03-29 03:04:48 0 收藏

kafka的分区详解

kafka的分区副本机制分区Leader选举☆分区重新分配☆创建集群和主题查看主题详情再添加一个分区再添加一个节点重新分配修改副本因子分区策略RangeAssignor分配策略RoundRobinAssignor分配策略StickyAssignor自定义分配策略主要内容 : kafka分区的管理

overfit同步小助手 2023-03-29 03:04:45 0 收藏

毕业设计基于大数据的社交平台数据爬虫舆情分析可视化系统

🔥 这两年开始毕业设计和毕业答辩的要求和难度不断提升，传统的毕设题目缺少创新和亮点，往往达不到毕业答辩的要求，这两年不断有学弟学妹告诉学长自己做的项目系统达不到老师的要求。为了大家能够顺利以及最少的精力通过毕设，学长分享优质毕业设计项目，今天要分享的是🚩基于大数据的社交平台数据爬虫舆情分析可视化

overfit同步小助手 2023-03-29 03:04:42 0 收藏

js：spark-md5分片计算文件的md5值

分片读取文件，计算最终md5值。分片读取文件，并计算md5值。* 计算文件md5值。// 默认分片大小 2MB。

overfit同步小助手 2023-03-29 03:04:39 0 收藏