大数据 - overfit.cn

机器学习(一)Spark机器学习基础

走到水果摊旁，挑了个色泽青绿、敲起来声音浊响的青绿西瓜，一边期待着西瓜皮薄肉厚瓤甜的爽落感，一边愉快地想着，明天学习Python机器学习一定要狠下功夫，基础概念搞得清清楚楚，案例作业也是信手拈来，我们的学习效果一定差不了。最大的一个区别就是它现在真的是深入到我们生活的每一个角落，打开你的手机看看，淘

overfit同步小助手 2024-01-19 22:03:24 0 收藏

CentOS-7.3编译VTK-5.8.0,报错：ERROR：‘S_IFLINK‘未声明（首次在此函数中使用）

CentOS -7.3 编译VTK-5.8.0报错问题，处理方法。

overfit同步小助手 2024-01-19 20:03:33 0 收藏

Eureka-Server源码核心代码入口

先从注册表获取该服务的实例列表（gMap），再从gMap中通过实例的id 获取具体的要续约的实例。在AbstractInstanceRegistry的postInit方法中，定义EvictionTask定时任务，构建定时器启动该任务，执行任务中剔除方法 evict()。这个值在Eureka中被定义

overfit同步小助手 2024-01-19 19:03:34 0 收藏

Hive（二）

select num_stu from students where name like '李%'；select num_stu from students where name like '李_';select name from students where name not '王%';只针对表

overfit同步小助手 2024-01-19 19:03:22 0 收藏

Flink中的状态管理

在Flink中，算子任务可以分为有状态和无状态两种状态。无状态的算子任务只需要观察每个独立事件，根据当前输入的数据直接转换输出结果。例如Map、Filter、FlatMap都是属于无状态算子。而有状态的算子任务，就是除了当前数据外，还需要一些其他的数据来得到计算结果。这里的其他数据就是所谓的“状态”

overfit同步小助手 2024-01-19 18:03:54 0 收藏

简历还在外卖和商城？来看看基于Flink的异构数据源流转系统

1-货拉拉造车：28k，公积金5%，年终奖0-2个月，不包三餐，工作地点大学城，无通勤车2-赛力斯：20k，公积金按试用期8折10%计算「16k*10%，且明年。本2硕9，家是湖北襄阳的，目前三方签了襄阳一个研究所，第一年总包17万（加上公司交的公积金，还有一些襄阳市政府的人才补贴），事业编，非常稳

overfit同步小助手 2024-01-19 18:03:50 0 收藏

Spark RDD的转换

withScope就像是一个 AOP（面向切面编程），嵌入到所有RDD 的转换和操作的函数中，RDDOperationScope会把调用栈记录下来，用于绘制Spark UI的 DAG（有向无环图，可以理解为 Spark 的执行计划）。下文中两个 RDD 的关联中，两个 RDD 分别称为 rdd1、r

overfit同步小助手 2024-01-19 17:03:46 0 收藏

【flink番外篇】13、Broadcast State 模式示例-简单模式匹配（1）

系统介绍某一知识点，并辅以具体的示例进行说明。1、Flink 部署系列本部分介绍Flink的部署、配置相关基础内容。2、Flink基础系列本部分介绍Flink 的基础部分，比如术语、架构、编程模型、编程指南、基本的datastream api用法、四大基石等内容。3、Flik Table API和S

overfit同步小助手 2024-01-19 16:03:50 0 收藏

INT303 Big Data 个人笔记

XJTLU大四上大数据分析的个人笔记

overfit同步小助手 2024-01-19 16:03:41 0 收藏

Spark Streaming简介与代码实例

为了更好理解流式计算思想，我们来举例一个更具体的流式计算的程序。

overfit同步小助手 2024-01-19 14:03:39 0 收藏

kafka如何实现延迟队列来实现延迟消费

这种方式利用Kafka的时间戳和时间戳索引功能，在消费者端可以通过设置合适的等待时间来实现延迟消费的效果，避免了频繁轮询和重复发送消息。在Kafka中实现延迟队列来实现延迟消费的最有效率的方式是使用Kafka的时间戳和时间戳索引功能。

overfit同步小助手 2024-01-19 14:03:17 0 收藏

Spark内容分享(二十五)：Spark读写Iceberg在腾讯的实践和优化

ZOrder可以认为是sort的变种，在Spark中，单列的sort对文件的过滤是比较友好的，但如果sort by多列的话，会首先对column0做sort，然后column0相同的时候再做column1的sort，所以如果过滤的where条件是column1或者column2的时候文件过滤效果就不

overfit同步小助手 2024-01-19 13:03:36 0 收藏

CentOS7 下 Zookeeper 安装及配置

介绍 ZooKeeper 的安装和基本配置， ZooKeeper 是一个开源的分布式协调服务，它提供了一个高性能的、可靠的分布式环境，用于协调和管理分布式应用程序的配置、状态和元数据信息。

overfit同步小助手 2024-01-19 11:03:34 0 收藏

【Spark源码分析】Spark的RPC通信一-初稿

spark的RPC通信

overfit同步小助手 2024-01-19 09:03:47 0 收藏

Flink实时电商数仓之DWS层

进行分词需要引入IK分词器，使用它时需要引入相关的依赖。它能够将搜索的关键字按照日常的使用习惯进行拆分。比如将苹果iphone 手机，拆分为苹果，iphone, 手机。

overfit同步小助手 2024-01-19 08:03:18 0 收藏

【大数据】分布式协调系统 Zookeeper

从设计模式的角度来理解：Zookeeper 是一个基于观察者模式设计的分布式服务管理框架，它负责存储和管理大家都关心的数据，然后接收观察者的注册。一旦数据的状态发生变化，Zookeeper 就会通知那些已经注册的观察者，以便它们能够及时做出反应。

overfit同步小助手 2024-01-19 08:03:14 0 收藏

Zookeeper的基础介绍和安装教程

overfit同步小助手 2024-01-19 06:03:47 0 收藏

Kafka实战：消费指定时间范围内的Kafka Topic数据

首先，我们需要设置好Kafka的环境并创建一个Topic。这里假设你已经安装并配置好了Kafka，并创建了一个名为"my_topic"的Topic。这样，我们就完成了消费指定时间范围内的Kafka Topic数据的代码编写。在上述代码中，我们首先设置了Kafka集群的地址和消费者的配置。然后，我们创

overfit同步小助手 2024-01-19 05:03:28 0 收藏

大数据Doris（四十八）：Doris的动态分区示例与查看动态分区表调度情况

注：2019-12-31 和 2020-01-01 在同一周内，如果分区的起始日期为 2019-12-31，则分区名为 p2019_53，如果分区的起始日期为 2020-01-01，则分区名为 p2020_01。同时，因为分区列 k1 的类型为 DATETIME，则分区值会补全时分秒部分，且皆为 0

overfit同步小助手 2024-01-19 04:03:37 0 收藏

数据仓库从0到1之数仓建模理论

存放原始数据，原始数据保持原状。原始数据一类是日志，一类是业务数据。业务数据从mysql导入进来，本身就是结构化的，以具体分隔符分割，可以直接记载到对应数据库。但是日志数据就不行，是一行一行的字符串，需要将字符串解析成可以导入hive的数据格式。即ODS层主要是对日志进行解析，要考虑解析成多少张表，

overfit同步小助手 2024-01-19 04:03:14 0 收藏