大数据 - overfit.cn

TransBigData：一款基于 Python 的超酷炫交通时空大数据工具包

TransBigData是一个为交通时空大数据处理、分析和可视化而开发的Python包。TransBigData为处理常见的交通时空大数据（如出租车GPS数据、共享单车数据和公交车GPS数据等）提供了快速而简洁的方法。TransBigData为交通时空大数据分析的各个阶段提供了多种处理方法,代码简洁

overfit同步小助手 2022-09-26 09:04:32 0 收藏

Mysql高阶语句

存储过程也shell脚本里的函数类似，只不过存储过程，封装的是一组SQL语句Mysql数据库存储过程是一组为了完成特定功能的sql语句集合存储过程在使用过程中是将常用或者复杂的工作预先使用的sql语句写好并用一个指定的名称存储起来，这个过程编译的优化后存储在数据库服务器中，当需要使用该存储过程时，只

overfit同步小助手 2022-09-25 08:03:09 0 收藏

学大数据有哪些高薪工作可以选？

大数据行业目前有多火爆就不用多说了，我们生活和工作的方方面面都和大数据技术息息相关。由于大数据在各个行业的广泛应用，导致了大数据人才缺口的进一步扩大。可能有人会问了，学大数据有哪些高薪工作可以选呢？首先大数据的整体就业薪资都挺高，而且的就业方向也很多。下面为大家介绍一些大数据行业的高薪岗位。数据分析

overfit同步小助手 2022-09-25 08:02:39 0 收藏

湖仓一体电商项目（二十）：业务实现之编写写入DM层业务代码

DM层主要是报表数据，针对实时业务将DM层设置在Clickhouse中，在此业务中DM层主要存储的是通过Flink读取Kafka “KAFKA-DWS-BROWSE-LOG-WIDE-TOPIC” topic中的数据进行设置窗口分析，每隔10s设置滚动窗口统计该窗口内访问商品及商品一级、二级分类分析

overfit同步小助手 2022-09-25 08:02:28 0 收藏

【面经】- 上汽新能源车企30K-60K架构师实战面经分享

【面经】- 上汽新能源车企30K-60K架构师实战面经分享java架构师面经大数据架构师面经数据开发架构师面经大数据平台架构师面经

overfit同步小助手 2022-09-25 08:02:25 0 收藏

[大数据]数据可视化 -- 练习卷

是指发现并纠正数据文件中可识别错误的最后一道程序，是对数据的完整性、一致性和准确性进行重新审查和校验的过程。．动态图表是图表分析的较高级形式，当用户执行某个操作后，图表中的数据会随之发生变化，这种图表也称为。相结合的方式，可以很好地阐释单个系列数据从一个值到另一个值的变化过程，形象地说明数据的流动情

overfit同步小助手 2022-09-25 08:01:07 0 收藏

大数据面试之hive重点（四）

overfit同步小助手 2022-09-24 14:02:30 0 收藏

Hadoop集群配置

快速创建linux虚拟机，并且搭建好Hadoop集群

overfit同步小助手 2022-09-24 14:02:27 0 收藏

从零开始搭建虚拟机伪分布式环境（从创建虚拟机一步步教你搭建伪分布式开发环境）。

从零开始搭建伪分布式环境，本人已经测试一遍除了粗心把路径命令打错了别的无任何错误

overfit同步小助手 2022-09-23 07:22:43 0 收藏

湖仓一体电商项目（十八）：业务实现之编写写入DWD层业务代码

另外，在Flink处理此topic中每条数据时都有获取对应写入后续Kafka topic信息，本业务对应的每条用户日志数据写入的kafka topic为“KAFKA-DWD-BROWSE-LOG-TOPIC”，所以代码可以复用。以上代码执行后在，在对应的Kafka “KAFKA-DWD-BROWSE

overfit同步小助手 2022-09-23 07:22:33 0 收藏

我眼中的大数据（一）

在正式落地谈技术之前，先花一些篇幅说说大数据技术的发展史。我们常说的大数据技术，其实起源于Google在2004年前后发表的三篇论文，分别是分布式文件系统GFS、大数据分布式计算框架MapReduce和NoSQL数据库系统BigTable（如果大家需要可以留言给我，我可以专门解读一下）。

overfit同步小助手 2022-09-23 07:21:02 0 收藏

Observability：使用 Elastic Agent 来进行 Uptime 监控

在 Elastic Stack 7.x 中，Elastic 引入 Heartbeat 来对网站或微服务来进行监控。通过 Heartbeat 的应用，我们可以知道网站及微服务的运行情况，我们甚至可以针对服务器的证书的有效期进行监控。随着 Elastic Agent 的推出，Elastic 更建议我们使

overfit同步小助手 2022-09-21 07:26:29 0 收藏

Flink / Scala - 大规模状态 ValueState 内存实践与优化

Flink / Scala 大规模状态 ValueState 内存实践与优化。

overfit同步小助手 2022-09-21 07:26:19 0 收藏

【ClickHouse】-01.万字带你快速入门使用CK

【ClickHouse】-01.万字带你快速入门使用CKClickHouse安装；ClickHouse引擎；ClickHouse数据类型；ClickHouse Sql 案例操作

overfit同步小助手 2022-09-20 07:27:17 0 收藏

离线数仓搭建_05_电商业务简介与业务数据说明

本文为离线数仓，业务数据介绍部分，主要帮助读者了解关于电商业务数据的相关内容！

overfit同步小助手 2022-09-20 07:26:32 0 收藏

湖仓一体电商项目（十六）：业务实现之编写写入ODS层业务代码

这里也可以不设置从头开始消费Kafka数据，而是直接启动实时向MySQL表中写入数据代码“RTMockDBData.java”代码，实时向MySQL对应的表中写入数据，这里需要启动maxwell监控数据，代码才能实时监控到写入MySQL的业务数据。以上代码执行后在，在对应的Kafka “KAFKA-

overfit同步小助手 2022-09-20 07:26:18 0 收藏

Flink多流转换（一）

所谓“分流”，就是将一条数据流拆分成完全独立的两条、甚至多条流。也就是基于一个DataStream，得到完全平等的多个子 DataStream，如图所示。一般来说，我们会定义一些筛选条件，将符合条件的数据拣选出来放到对应的流里。其实根据条件筛选数据的需求，本身非常容易实现：只要针对同一条流多次独

overfit同步小助手 2022-09-19 10:26:43 0 收藏

hive shell中有许多日志信息的解决办法

hive shell中出现大量日志信息的解决办法！hive-3.1.2

overfit同步小助手 2022-09-19 10:26:27 0 收藏

Kafka 生产者和消费者实例

基于命令行使用Kafka类似scala，mysql等，命令行是初学者操作Kafka的基本方式，kafka的模式是生产者消费者模式，他们之间通讯是通过，一个公共频道完成。指定消费者组ID，在同一时刻同一消费组中只有一个线程可以去消费一个分区数据，不同的消费组可以去消费同一个分区的数据。(查看Kafka

overfit同步小助手 2022-09-18 08:14:27 0 收藏

【DataOps】- 数据开发治理一体化之网易数帆数据治理2.0实践分享

【DataOps】- 数据开发治理一体化之网易数帆数据治理2.0实践分享要做好数据治理个人认为的有两个方向可以去尝试：1.像网易做的一体化方案，直接从数据开发，数据建模源端就开始进行管控 2.先定义好标准, 数据治理平台便是数据抽象层(标准层),实现一种数据注册的机制将原先的开发过程+设计+需求抽象

overfit同步小助手 2022-09-18 08:14:17 0 收藏