大数据 - overfit.cn

第3章 Stata描述统计

目录3.1定距变量的描述性统计案例延伸1.获得更详细的描述性统计结果2.根据自己的需要或去相应的概要统计指标3.按另一变量分类列出某变量的概要统计指标4.创建变量总体均值的置信区间3.2正态性检验和数据转换案例延伸2.关于ladder命令介绍3.3单个分类变量的汇总案例延伸3.4两个分类变量的列联列

overfit同步小助手 2023-03-28 22:05:29 0 收藏

什么是用户增长？ (超详细)

增长思维

overfit同步小助手 2023-03-28 22:05:26 0 收藏

(二)HDFS架构设计理念与缺陷

目录设计理念1）支持超大数据集2）绝对能够应对硬件的故障3）流式数据处理4）简化的数据一致性模型5）尽量移动计算，但是不要移动数据缺陷1）实时性差2）小文件问题3）文件修改问题设计理念1）支持超大数据集hdfs分布式存储,将大量的数据存放到N台机器上,每台机器存放部分数据.机器可横向扩展,所以h

overfit同步小助手 2023-03-28 22:05:17 0 收藏

大数据项目之电商数仓DataX、DataX简介、DataX支持的数据源、DataX架构原理、DataX部署

DataX 是阿里巴巴开源的一个异构数据源离线同步工具，致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。DataX设计理念、DataX框架设计、DataX运行流程、DataX调度决策思路、DataX

overfit同步小助手 2023-03-28 22:05:04 0 收藏

【电商】电商后台设计—购物车

电商的核心交易流程中，购物车是其中非常重要的一环，它承担商品加购、价格计算、促销活动展示等功能，与会员系统、商品系统、库存系统、订单系统等紧密结合

overfit同步小助手 2023-03-28 21:10:35 0 收藏

hadoop 报不是内部或外部命令的解决办法

Hadoop 运行报错不是内部命令

overfit同步小助手 2023-03-28 21:06:01 0 收藏

Flink学习19：算子介绍keyBy

主要作用：把相同的数据，汇总到相同的分区中。

overfit同步小助手 2023-03-28 21:05:59 0 收藏

FusionInsight MRS Flink DataStream API读写Hudi实践

目前Hudi只支持FlinkSQL进行数据读写，但是在实际项目开发中一些客户存在使用Flink DataStream API读写Hudi的诉求。1.HoodiePipeline.java 将Hudi内核读写接口进行封装，提供Hudi DataStream API。1）HoodiePipeline.j

overfit同步小助手 2023-03-28 21:05:50 0 收藏

[Flink项目优化] 资源配置调优

overfit同步小助手 2023-03-28 21:05:42 0 收藏

elasticsearch配置密码，单节点和多节点两种配置方式。springboot配置密码连接。

ES 6.8以后的版本自带一个叫 xpack 的安全功能，启用即开启了xpack的功能、模式、并且传输启用ssl。重启完成后，检查集群是否正常，因为想要成功设置密码的话，必须确保集群状态正常才行,否则密码设置会失败。把这个秘钥文件复制到其他所有从节点的ES安装目录中的config目录下。执行完以后，

overfit同步小助手 2023-03-28 21:05:39 0 收藏

Swagger的详细使用教程

目录一.Swagger的作用二.Swagger的详细使用步骤swagger用于生成在线api文档和进行接口测试，是前后端联调中使用最多的工具1.引入Swagger依赖2.创建swagger配置类3.若创建的swagger是新建的一个模块(若是在当前模块引入swager依赖，此步可以忽略),则：（1）

overfit同步小助手 2023-03-28 21:05:32 0 收藏

【大数据基础实践】(六)数据仓库Hive的基本操作

目录1. 数据仓库概念2. Hive简介2.1 简介2.2 特性2.3 生态系统3. Hive系统架构4. HQL转成MapReduce作业的原理4.1 join的实现原理4.2 group by的实现原理5. 实验练习5.1 环境配置5.1.1 HIVE5.1.2 MYSQL5.1.3 配置MyS

overfit同步小助手 2023-03-28 21:05:29 0 收藏

Hive的安装与配置——第2关：Hive Shell入门基础命令

补充完代码后，点击测评，平台会对你编写的代码进行测试，当你的结果与预期输出一致时，即为通过。操作都会输出执行过程信息，如执行查询操作所用时间，通过指定。作业对任务进行并行处理，然后返回处理结果。因为该数据库下没有创建表，所以输出结果为。Hive Shell 非交互式运行。的交互式模式和非交互式模式下

overfit同步小助手 2023-03-28 21:05:20 0 收藏

Elasticsearch 导入导出全量数据

es导入导出全量数据 elasticsearch导入导出全量数据

overfit同步小助手 2023-03-28 21:05:08 0 收藏

数据治理：数据质量问题出现的原因及解决思路

众所周知，要体现数据价值，前提就是数据质量的保障，质量没有得到 100% 保证的数据是很难体现出业务价值的，如果基于这些有问题的数据做决策支持，或做业务办理，将会得到灾难性的结果，让领导层和数据使用方对大数据失去信心。高质量的数据是进行分析决策、业务发展规划的重要基础，只有通过建立完整的数据质量管理

overfit同步小助手 2023-03-28 21:05:04 0 收藏

python解析二进制文件以及不同进制数值间的转换

目录1、python解析二进制文件2、不同进制数值间的转换参考文献：1、python解析二进制文件不同类型数据的字节数不同，因此首先要明确不同物理量数据所在的字节位置及其数据类型，python和C语言中不同数据类型对应关系如下，表中standard size一列给出了该类型数据占据的字节个数。用py

overfit同步小助手 2023-03-28 21:03:28 0 收藏

Elasticsearch：使用不同的 CA 更新安全证书（一）

如果你必须添加组织中的新 CA 证书，或者你需要自己生成新 CA，请使用此新 CA 签署新节点证书并指示你的节点信任新 CA 证书。在今天的展示中，我将来演示如何更新一个 Elasticsearch 8.x 集群的 CA 证书。...............

overfit同步小助手 2023-03-28 20:09:52 0 收藏

hive面试题

以第一个表的分区规则，来对应第二个表的分区规则，将第一个表的所有分区，全部拷贝到第二个表中来，第二个表在加载数据的时候，不需要指定分区了，直接用第一个表的分区即可。元数据包括：表名、表所属的数据库（默认是default）、表的拥有者、列/分区字段、表的类型（是否是外部表）、表的数据所在目录等；当发生

overfit同步小助手 2023-03-28 20:05:20 0 收藏

openGauss数据库客户端连接工具之Datastudio安装

overfit同步小助手 2023-03-28 20:05:17 0 收藏

关于hive的启动和连接

关于hadoop启动，hive的启动和连接。

overfit同步小助手 2023-03-28 20:05:15 0 收藏