大数据 - overfit.cn

利用Python进行数据分析系列之：DataFrame

DataFrame是一个表格型的数据结构，含有一组有序的列，妹列可以是不同的值类型(数值、字符串、布尔值等)。DataFrame即有行索引也有列索引。一、构建DataFrame构建DataFrame

overfit同步小助手 2022-06-01 07:11:30 0 收藏

一文细数100+个数据分析指标

这一、用户数据指标IP（Internet Protocol）：独立IP数。UV（Unique Visitor）：独立访问客数。PV（Page View）：页面浏览量/阅读量。VV（Visit View）：访问次数。一、用户数据指标IP（Internet Protocol）：独立IP数。UV（Uniq

overfit同步小助手 2022-06-01 07:11:27 0 收藏

跟数据打交道的人都得会的这8种数据模型，满足工作中95%的需求

其实模型的使用只是为我们从杂乱无序的海量数据中找到一条最方面、最省力、最有效的捷径。通过数据模型你可以清晰的知道收集哪条数据、分析哪个指标、从哪个维度能更快的获得你想要的结果，至于模型的叫什么并不重要，会用就行。

overfit同步小助手 2022-06-01 07:11:21 0 收藏

【大数据】HiveQL关于数据库和表的操作命令

HiveQL关于数据库和表的操作命令HiveQL 是 Hive 查询语言。Hive 和 MySQL 最接近，但二者仍存在显著差别。Hive 不支持行级插入操作、更新操作和删除操作。Hive 也不支持事务。Hive 中数据库的概念，本质上仅仅是表的一个目录或者命名空间。如果用户没有显式指定数据库，那么

overfit同步小助手 2022-06-01 07:11:17 0 收藏

大数据发展前景及就业方向【大数据专业讲座】

1、选择一门重点学习的编程语言：Java或者Python2、学习必备的数据库、Linux操作系统3、根据不同的方向针对性强化 - 大数据开发方向：一定要去钻研Hadoop平台及其组件、Hive数据仓库、Spark交互计算框架等。

overfit同步小助手 2022-06-01 07:11:13 0 收藏

在云计算大数据学习中心学习的第一天

何为计算机网络：计算机网络主要包括以下技术：1.云技术：①云存储（例百度网盘） ②云计算（例分布式计算）2.计算机技术：①抽象语言 ——>电信号②抽象语言 ——>编码 ——>应用层③编码 ——>二进制——>表示层④二进制 ——>电信号——>介质（硬件）访

overfit同步小助手 2022-05-31 16:11:28 0 收藏

Python数据分析报告

业务背景：B2B业务已收会员和服务费作为收益主要来源，目前会员类型分成钻石会员、金牌会员，销售合同一般会包含会员服务、增值服务、广告服务等等，销售过程可能会受到销售策略的影响，做一些业务的促销优惠或者折扣。每年的订单含新客户签约和老客户续约两种，同时合同期间也会出现服务加购或者变更的问题。问题研究：

overfit同步小助手 2022-05-31 10:12:12 0 收藏

FlinkToMySql两阶段提交

TwoPhaseCommitSinkFunction

overfit同步小助手 2022-05-31 10:12:08 0 收藏

数据湖（五）：Hudi与Hive集成

Hudi与Hive集成原理是通过代码方式将数据写入到HDFS目录中，那么同时映射Hive表，让Hive表映射的数据对应到此路径上，这时Hudi需要通过JDBC方式连接Hive进行元数据操作，这时需要配置HiveServer2。

overfit同步小助手 2022-05-31 10:12:04 0 收藏

第3期：零基础在校大学生应该如何学习大数据？

目前大数据是一个非常有发展前景的岗位，在IT界薪资待遇也很高，很多人想从事这方面的工作，那零基础的在校大学生应该如何学习大数据呢？

overfit同步小助手 2022-05-31 10:11:56 0 收藏

Kafka集群部署与测试

1、下载、解压安装包：将安装包上传到master节点中的/opt/software目录下，并将安装包解压到/opt/moduel，再命名为kafka 具体命令如下：tar -zxvf kafka-2.11-2.0.0.tgz -C /opt/modulemv kafka-2.11-2.0.0.tgz

overfit同步小助手 2022-05-30 11:47:23 0 收藏

数据湖（四）：Hudi与Spark整合

默认Spark操作Hudi使用表类型为Copy On Write模式。Hudi与Spark整合时有很多参数配置，可以参照https://hudi.apache.org/docs/configurations.html配置项来查询，此外，整合时有几个需要注意的点，如下:Hudi这里使用的是0.8.0版

overfit同步小助手 2022-05-30 11:47:17 0 收藏

牛客题霸刷题-SQL必知必会50道

SQL每个人都要用，但是用来衡量产出的并不是SQL本身，你需要用这个工具，去创造其它的价值。

overfit同步小助手 2022-05-30 11:47:13 0 收藏

hadoop-3.3.3完全分布式集群搭建

hadoop-3.3.3完全分布式集群搭建前言环境准备软件版本集群规划一、配置jdk环境变量1. 解压jdk2. 修改/etc/profile文件二、hadoop集群搭建1. 关闭防火墙2. 修改主机名3. 添加ip映射4. 配置免密登录5. 修改hadoop配置文件1. 解压2. 配置hadoop

overfit同步小助手 2022-05-29 07:37:53 0 收藏

MetaX组件化框架

MetaX 是 58 无线 Android 团队开发一套彻底的组件化框架，它意在降低底层库的升级成本、业务个性化成本和提升业务线编译速度

overfit同步小助手 2022-05-29 07:37:50 0 收藏

一文通吃：从 ZooKeeper 一致性，Leader选举讲到 ZAB 协议与 PAXOS 算法（上）

本文将从ZooKeeper集群如何保证一致性，讲到zookeeper保证数据一致性的协议，然后展开讲Zookeeper集群Leader选举，包括集群三种节点的类型，ZAB协议中节点的四种状态，以及两种情况下Leader选举的过程。然后会详细展开讲解ZAB协议，包括ZAB协议中ZXID的结构，ZAB协

overfit同步小助手 2022-05-29 07:37:46 0 收藏

sqoop把hive中的数据导入mysql

使用sqoop将hive中的数据导入mysql中记录简单案例首先开启集群：start-all.sh在hive中建库建表，并插入一条数据来为自己做实验：验证一下，是否插入成功：在mysql中建表，并且要与hive中传过来的数据字段相对应：建表后为空：用sqoop将hive中的数据传到mysql中：ex

overfit同步小助手 2022-05-29 07:37:41 0 收藏

使用docker搭建hive测试环境

使用docker compose搭建hive测试环境

overfit同步小助手 2022-05-29 07:37:38 0 收藏

hbase 启动失败的解决办法

常见的hbase启动失败问题的解决办法

overfit同步小助手 2022-05-29 07:37:35 0 收藏

flume采集数据直接存到hive中

小白都能学会的flume采集数据到hive的教程

overfit同步小助手 2022-05-29 07:37:30 0 收藏