大数据 - overfit.cn

点赞、收藏必读文章--数据分析的多变量分析

快速入门数据分析多变量分析！

overfit同步小助手 2022-08-16 07:55:55 0 收藏

RabbitMQ

overfit同步小助手 2022-08-16 07:55:51 0 收藏

大数据Apache Druid（七）：Druid数据的全量更新

提交任务后，稍等片刻，在“Segment”标签下找到“mydruid_testdata”Datasource,可以最终看到指定的时间范围“20210701T000000.000Z~20210702T000000.000Z”内，只有一个最后提交的Segment片段信息（开始可能会有2个，等一会只剩最新

overfit同步小助手 2022-08-16 07:55:40 0 收藏

大数据Apache Druid（八）：Druid JDBC API和其他OLAP分析框架对比

在大数据处理场景中，我们可以编写接口来读取Druid中的数据进行聚合操作，以供可视化展示使用。下面使用jdbc的方式来读取Druid中的数据。(支持Segment批量覆盖更新)N（Kudu 引擎支持）

overfit同步小助手 2022-08-16 07:55:36 0 收藏

【python数据分析刷题】-N07.合并

Python实际针对数据分析的学习是库，用库来解决一系列的数据分析问题

overfit同步小助手 2022-08-16 07:55:33 0 收藏

SpringCloud Alibaba核心组件Nacos【服务多级存储模型&配置集群】第2章

本章主要诠释：服务集群属性和配置，服务分级存储是什么，什么是集群，为什么要引物服务分级，解决什么问题

overfit同步小助手 2022-08-16 07:55:29 0 收藏

大数据场景下的AB-Test

想要了解 AB Test？不知道从哪里入手？Come on，I’am here！

overfit同步小助手 2022-08-15 07:56:01 0 收藏

spark Spark Streaming、kafka数据源Direct模式、自定义数据源

Spark Streaming广泛运用于流式数据的处理（准实时、微批次的数据处理框架）。使用离散化流(discretized stream)作为抽象表示，即DStream。DStream 是随时间推移而收到的数据的序列。在内部，每个时间区间收到的数据都作为 RDD 存在，而DStream是由这些RD

overfit同步小助手 2022-08-15 07:55:57 0 收藏

Flink作业任务部署解读

Flink作业任务部署有几种模式，分别为：Application 模式、Per-Job 模式、Session模式。无论何种模式，都是提交到JobManager的，JobManager会把作业分发到不同的TaskManager，TaskManager为实际的工作者。对于JobManager及TaskM

overfit同步小助手 2022-08-15 07:55:53 0 收藏

基于kafka，zookeeper实现的日志收集平台搭建

l项目描述：分别使用3台Linux服务器来作为nginx集群搭建前端web服务，kafka集群和zookeeper集群,2台Linux机器做反向代理集群。

overfit同步小助手 2022-08-15 07:55:47 0 收藏

Mysql总结，可用于面试

自己对mysql的总结

overfit同步小助手 2022-08-15 07:55:43 0 收藏

【官方标准】- 交通运输领域元数据标准规范

官方交通运输领域元数据标准规范

overfit同步小助手 2022-08-15 07:55:38 0 收藏

大数据Apache Druid（六）：Druid流式数据加载

打开postman，post请求URL:http://node3:8081/druid/indexer/v1/supervisor,在row中写入以上json配置数据提交即可，执行之后可以在Druid页面中看到对应的supervisors和Datasource。执行聚合查询：select loc,i

overfit同步小助手 2022-08-15 07:55:30 0 收藏

health

项目

overfit同步小助手 2022-08-14 08:55:39 0 收藏

PointNeXt：个人阅读笔记（WZS的博客）

我们发现，性能提高的很大一部分是由于改进了培训策略，即数据扩充和优化技术，以及增加了模型大小，而非架构创新。

overfit同步小助手 2022-08-14 08:55:32 0 收藏

大数据ClickHouse（十一）：MergeTree系列表引擎之AggregatingMergeTree

向表中插入排序字段相同的数据进行分区聚合时，数据按照建表指定的聚合字段进行合并，其他的非聚合字段会保留最初的那条数据，新插入的数据对应的字段值会被舍弃。查询数据时，如果正常语句查询，aggregateFunction类型的列不会正常显示数据，针对以上的数据需要使用sumMerge来展示数据。对于Ag

overfit同步小助手 2022-08-14 08:55:26 0 收藏

大数据ClickHouse（十）：MergeTree系列表引擎之SummingMergeTree

并且数据的汇总条件是预先明确的，即GROUP BY的分组字段是确定的，可以使用该表引擎。

overfit同步小助手 2022-08-14 08:55:23 0 收藏

大数据Apache Druid（五）：Druid批量数据加载

点击“Query”，查询数据，我们可以看到数据中按照指定的小时，所有维度相同的数据自动进行了聚合操作，这里datasource“mydruid_testdata”中存储的数据是预聚合之后的数据，如果有相同维度数据，原来“原子性”数据查询不到了。如果不希望预聚合，可以在步骤中将“rollup”设置关闭

overfit同步小助手 2022-08-14 08:55:15 0 收藏

大数据异常处理之蓝屏，断电导致mysql异常

overfit同步小助手 2022-08-13 09:55:05 0 收藏

Elasticsearch：从 Elastic Stack 中的时间戳谈开去

时间戳，也就是 timestamp，它在许多的事件中，特别是时序数据中是一个不可少的字段。它记录事件或文档的时间。在我们对数据可视化时，也是非常重要的一个字段。针对时序时间，在我们对数据创建 index patterns 或者 date views 时，我们需要选择时间戳的字段。...

overfit同步小助手 2022-08-13 08:55:40 0 收藏