大数据 - overfit.cn

数据中台建设（七）：数据资产管理

文章目录数据资产管理一、数据标准管理二、元数据管理三、主数据管理四、数据质量管理五、数据安全管理六、数据共享管理七、数据生命周期管理数据资产管理随着企业数据越来越大，企业意识到数据是一种无形的资产，通过对企业各业务线产生的海量数据进行合理管理和有效应用，能盘活并充分释放数

overfit同步小助手 2022-05-06 07:19:45 0 收藏

Docker 上部署一主两从Hadoop集群 | [Centos7]

本文目录写在前面配置前须知集群规划step1 开启docker拉取镜像step2 创建容器step3 免密登录配置1. ip查看2. 设置主机名3. 主机名与ip地址映射4. 免密登录5. 免密登录效果***bug fix1.0 /etc/hosts修改完成后重启容器失效step4 关闭防火墙ste

overfit同步小助手 2022-05-06 07:19:42 0 收藏

懒人必学常用的Shell脚本

偷懒小能手，shell脚本学会就不怕重新搭组件啦。

overfit同步小助手 2022-05-06 07:19:38 0 收藏

第3篇: Elasticsearch架构及模块功能介绍

背景：目前国内有大量的公司都在使用 Elasticsearch，包括阿里、京东、滴滴、今日头条、小米、vivo等诸多知名公司。除了搜索功能之外，Elasticsearch还结合Kibana、Logstash、Elastic Stack还被广泛运用在大数据近实时分析领域，包括日志分析、指标监控等多个领

overfit同步小助手 2022-05-06 07:19:34 0 收藏

Sqoop 的数据处理和开发--头歌

第1关：Sqoop数据导入语法学习start-all.sh schematool -dbType mysql -initSchema 第2关：Mysql导入数据至HDFS上mysql -uroot -p123123 -h127.0.0.1 create database hdfsdb;use hdf

overfit同步小助手 2022-05-05 11:01:35 0 收藏

4.网络配置与系统管理

📋 个人简介💖 作者简介：大家好，我是W_chuanqi，一个编程爱好者📙 个人主页：W_chuanqi😀 支持我：点赞👍+收藏⭐️+留言📝💬 愿你我共勉：“若身在泥潭，心也在泥潭，则满眼望去均是泥潭；若身在泥潭，而心系鲲鹏，则能见九万里天地。”✨✨✨文章目录网络配置与系统管理1 i

overfit同步小助手 2022-05-05 11:01:31 0 收藏

flume自定义拦截器开发步骤

步骤如下：1、新建一个java项目，不需要依赖spring等一系列依赖。只需要加上你用的工具类的依赖。flume的依赖不用加，因为服务器里面有。2、实现Interceptor接口，重写里面的intercept方法，把你的逻辑写好，然后返回event。3、打包，打的包是很小的那种，没有其他杂七杂八的

overfit同步小助手 2022-05-05 11:01:28 0 收藏

第1篇: 初识Elasticsearch

目前国内有大量的公司都在使用 Elasticsearch，包括阿里、京东、滴滴、今日头条、小米、vivo等诸多知名公司。除了搜索功能之外，Elasticsearch还结合Kibana、Logstash、Elastic Stack还被广泛运用在大数据近实时分析领域，包括日志分析、指标监控等多个领域。

overfit同步小助手 2022-05-05 11:01:25 0 收藏

使用mllib完成mnist手写识别任务

通过spark完成mnist手写识别任务的实验

overfit同步小助手 2022-05-05 11:01:21 0 收藏

二次开发Spark实现JDBC读取远程租户集群Hive数据并落地到本集群Hive的Hive2Hive数据集成【Java】

背景肤浅的SQL Boy们可能只知道pyspark构建出sparkSession对象【当然要enableHiveSupport】后，写一句SQL：spark.sql(“这里写一句SQL字符串”);然后spark就会根据此处的SQL，完成各种select查数据、insert overwrite灌数据到

overfit同步小助手 2022-05-05 11:01:17 0 收藏

RDD的处理过程

Spark用scala语言实现了RDD的API，程序开发者可以通过调用API对RDD进行操作处理。下图为RDD的处理过程：RDD经过一些列的“转换”操作，每一次转换都会产生不同的RDD，以供给下一次“转换”操作使用，直到最后一个RDD经过“行动”操作才会被真正计算处理，并输出到外部数据源中，若中间的

overfit同步小助手 2022-05-05 11:01:13 0 收藏

第2篇: Elasticsearch的相关名称解释

目前国内有大量的公司都在使用 Elasticsearch，包括阿里、京东、滴滴、今日头条、小米、vivo等诸多知名公司。除了搜索功能之外，Elasticsearch还结合Kibana、Logstash、Elastic Stack还被广泛运用在大数据近实时分析领域，包括日志分析、指标监控等多个领域。

overfit同步小助手 2022-05-05 11:01:07 0 收藏

教你使用Sqoop一次性将mysql中的十张表导入到hive中

sqoop数据同步工具的使用一文教你学会使用sqoop将mysql数据库中的十张表导入到大数据平台hive中

overfit同步小助手 2022-05-05 11:01:04 0 收藏

Spark基础学习笔记24：Spark SQL数据源

使用各种数据源：parquet, json, hive表, jdbc

overfit同步小助手 2022-05-03 10:38:20 0 收藏

浅谈Zookeeper集群选举Leader节点源码

写在前面：zookeeper源码比较复杂，本文讲解的重点为各个zookeeper服务节点之间的state选举。至于各个节点之间的数据同步，不在文本的侧重讲解范围内。在没有对zookeeper组件有一个整体架构认识的基础上，不建议直接死磕细节。本文写作的目的也是基于此，阅读本文，希望读者能够对zook

overfit同步小助手 2022-05-03 10:38:14 0 收藏

大数据杂谈（一些知识点和Linux命令）

1.分布式和集群的区别分布式：多台机器上部署不同的组建集群：多台机器上部署相同的组建2.SSH协议的定义公钥是服务器发给客户端的，服务器自己有私钥可以解密。3.linux基础和一些常用命令常用命令1.history：查看以前所用的写过的命令2.ls3.cd4.创建文件夹、文件，删除(rm)5.复制(

overfit同步小助手 2022-05-03 10:38:11 0 收藏

Hbase的安装和多节点配置

Hbase的环境配置分为单机模拟配置、伪分布式及完全分布式。由于完全分布式需要另外安装zookeeper，配置极为麻烦，故这里说明伪分布式的安装步骤。从官网中下载hbase文件包官网下载地址：Apache HBase – Apache HBase™ Home 下载链接，由于官网下载较慢，建议复

overfit同步小助手 2022-05-03 10:38:06 0 收藏

Zookeerper安装与配置

Zookeerper安装与配置1.Zookeeper单机模式安装2.Zookeeper集群模式安装一、Zookeeper单机安装1.配置java环境，并查看java安装版本，通过java -version查看2.下载并解压zookeeper。通过rz命令，将下载好的安装包上传到xshell上3.使用

overfit同步小助手 2022-05-02 07:48:51 0 收藏

搭建ZooKeeper集群和Kafka集群

目录规划基础环境配置（1）修改主机名（2）关闭防火墙及SELinux服务（3）编辑 hosts 文件（4）配置 yum 安装源（4）安装 JDK 环境搭建 ZooKeeper 集群（1）解压 ZooKeeper 软件包（2）修改 3 个节点配置文件（3）创建 myid 文件（4）启动 ZooKeep

overfit同步小助手 2022-05-02 07:48:47 0 收藏