大数据 - overfit.cn

RDD的分区、依赖关系、机制

RDD的分区原则是分区的个数尽量等于集群中的CPU核心(Core)数目。各种模式下的默认分区数目如下(1) Local模式:默认为本地机器的CPU数目,若设置了local[N].则默认为N.(2) Standalone或者Yarn模式:在“集群中所有CPU核数总和"和“2”这两者中取较大值作为默认值

overfit同步小助手 2022-08-19 13:13:21 0 收藏

基于Echarts实现可视化数据大屏董事会指标体系层级结构系统

🚀 基于 Echarts 实现可视化数据大屏响应式展示效果的源码,，基于html+css+javascript+echarts制作，可以在此基础上重新开发。本项目中使用的是echarts图表库，ECharts 提供了常规的折线图、柱状图、散点图、饼图、K线图，用于统计的盒形图，用于地理数据可视化

overfit同步小助手 2022-08-17 07:55:49 0 收藏

liunx：进程概念

liunx操作系统先利用task_ struct结构体保存进程的信息，再利用双链表的形式将他们组织起来，进行管理。

overfit同步小助手 2022-08-17 07:55:10 0 收藏

大数据Apache Druid（七）：Druid数据的全量更新

提交任务后，稍等片刻，在“Segment”标签下找到“mydruid_testdata”Datasource,可以最终看到指定的时间范围“20210701T000000.000Z~20210702T000000.000Z”内，只有一个最后提交的Segment片段信息（开始可能会有2个，等一会只剩最新

overfit同步小助手 2022-08-16 07:55:40 0 收藏

大数据Apache Druid（八）：Druid JDBC API和其他OLAP分析框架对比

在大数据处理场景中，我们可以编写接口来读取Druid中的数据进行聚合操作，以供可视化展示使用。下面使用jdbc的方式来读取Druid中的数据。(支持Segment批量覆盖更新)N（Kudu 引擎支持）

overfit同步小助手 2022-08-16 07:55:36 0 收藏

大数据场景下的AB-Test

想要了解 AB Test？不知道从哪里入手？Come on，I’am here！

overfit同步小助手 2022-08-15 07:56:01 0 收藏

【官方标准】- 交通运输领域元数据标准规范

官方交通运输领域元数据标准规范

overfit同步小助手 2022-08-15 07:55:38 0 收藏

大数据Apache Druid（六）：Druid流式数据加载

打开postman，post请求URL:http://node3:8081/druid/indexer/v1/supervisor,在row中写入以上json配置数据提交即可，执行之后可以在Druid页面中看到对应的supervisors和Datasource。执行聚合查询：select loc,i

overfit同步小助手 2022-08-15 07:55:30 0 收藏

大数据ClickHouse（十一）：MergeTree系列表引擎之AggregatingMergeTree

向表中插入排序字段相同的数据进行分区聚合时，数据按照建表指定的聚合字段进行合并，其他的非聚合字段会保留最初的那条数据，新插入的数据对应的字段值会被舍弃。查询数据时，如果正常语句查询，aggregateFunction类型的列不会正常显示数据，针对以上的数据需要使用sumMerge来展示数据。对于Ag

overfit同步小助手 2022-08-14 08:55:26 0 收藏

大数据ClickHouse（十）：MergeTree系列表引擎之SummingMergeTree

并且数据的汇总条件是预先明确的，即GROUP BY的分组字段是确定的，可以使用该表引擎。

overfit同步小助手 2022-08-14 08:55:23 0 收藏

大数据Apache Druid（五）：Druid批量数据加载

点击“Query”，查询数据，我们可以看到数据中按照指定的小时，所有维度相同的数据自动进行了聚合操作，这里datasource“mydruid_testdata”中存储的数据是预聚合之后的数据，如果有相同维度数据，原来“原子性”数据查询不到了。如果不希望预聚合，可以在步骤中将“rollup”设置关闭

overfit同步小助手 2022-08-14 08:55:15 0 收藏

hbuilder x配置配置使用 vue-cli和微信开发者工具

开启服务微信开发者工具-设置-安全设置-服务端口开启在HBuilder x 中设置挂起在微信小程序中 cli打开（2）安装vue4.5.15版本下载运行项目所需要的sass插件创建项目选择默认模板运行小程序命令将demo项目中的dist/dev/mp-weixin文件夹通过微信开发者工具

overfit同步小助手 2022-08-14 08:54:36 0 收藏

MongoDB数组查询

在数组元素上指定复合条件时，您可以指定查询，使得单个数组元素满足这些条件或数组元素的任意组合满足条件。使用点表示法，您可以在数组的特定索引或位置指定元素的查询条件。算符对数组元素指定多个条件，以使至少一个数组元素满足所有指定条件，条件之间的关系是。例如，以下选择数组标签具有 3 个元素的文档。数组包

overfit同步小助手 2022-08-13 09:56:04 0 收藏

大数据异常处理之蓝屏，断电导致mysql异常

overfit同步小助手 2022-08-13 09:55:05 0 收藏

Elasticsearch：从 Elastic Stack 中的时间戳谈开去

时间戳，也就是 timestamp，它在许多的事件中，特别是时序数据中是一个不可少的字段。它记录事件或文档的时间。在我们对数据可视化时，也是非常重要的一个字段。针对时序时间，在我们对数据创建 index patterns 或者 date views 时，我们需要选择时间戳的字段。...

overfit同步小助手 2022-08-13 08:55:40 0 收藏

大数据Apache Druid（四）：使用Imply进行Druid集群搭建

Imply基于Druid进行了一些组件的开发，是Druid的集成包，提供开源版本和商业版本，类似CDH一样，使安装Druid简化了部署，Imply也是Druid团队开发。我们可以使用Imply安装Druid，在Imply的官网https://imply.io进行下载，经过测试这个版本在提交加载数据任

overfit同步小助手 2022-08-13 08:55:32 0 收藏

Hudi async/inline compaction

hudi compaction分析

overfit同步小助手 2022-08-13 08:55:27 0 收藏

大数据Apache Druid（三）：Druid集群搭建

由于将Segment和索引数据存放在HDFS中，Druid需要连接HDFS，需要Hadoop中相关配置文件，在node3“/software/apache-druid-0.21.1/conf/druid/cluster/_common”目录下创建目录“hadoop-xml”，将Hadoop中core

overfit同步小助手 2022-08-12 07:36:25 0 收藏

【SQL解析】- SQL血缘分析实现篇01

SQL血缘解析实战hive血缘解析presto血缘解析表血缘解析字段血缘解析血缘解析生产实践gudusoft血缘解析sqlflow血缘解析druid血缘解析antlr血缘解析

overfit同步小助手 2022-08-12 07:36:12 0 收藏

Kafka的数据可靠与数据重复

kafka数据重复及数据可靠性问题

overfit同步小助手 2022-08-11 07:36:32 0 收藏