大数据 - overfit.cn

尚硅谷大数据技术之基于虚拟机 CDH5.12.1(Kerberos、Sentry 等)尚硅谷大数据项目之实时数仓项目 13 天(spark+clickhouse+es)尚硅谷大数据技术之 Structured Steaming。尚硅谷大数据技术之 Kubernetes、Zabbix。尚硅谷大数据技术

overfit同步小助手 2023-04-06 20:03:25 0 收藏

毕业设计-基于大数据技术的旅游推荐系统-python

毕业设计-基于大数据技术的旅游推荐系统-python:随着我国旅游产业规模不断扩大，旅游信息呈现爆炸性增长，导致游客很难获取有价值的信息，旅游服务开始从传统的信息化向智能化转变。智慧旅游推荐系统从海量旅游信息资源中发现游客感兴趣的信息，并将个性化需求信息推荐给对应的游客用户，因此推荐系统的

overfit同步小助手 2023-04-06 18:04:16 0 收藏

Spark（3）：Spark运行环境

自己学习时，每次都需要启动虚拟机，启动集群，这是一个比较繁琐的过程，并且会占大量的系统资源，导致系统执行变慢，不仅仅影响学习效果，也影响学习进度，Spark 非常暖心地提供了可以在 windows 系统下启动本地集群的方式，这样，在不使用虚拟机的情况下，也能学习 Spark 的基本使用。所谓的 Lo

overfit同步小助手 2023-04-06 17:04:37 0 收藏

ambari全攻略流程，认识ambari（一）

ambari介绍Apache Ambari 项目旨在通过开发用于供应、管理和监控 Apache Hadoop 集群的软件来简化 Hadoop 管理。Ambari 提供了一个直观、易于使用的 Hadoop 管理 Web UI，由其 RESTful API 提供支持。Ambari 使系统管理员能够：配置

overfit同步小助手 2023-04-06 17:04:24 0 收藏

Hive之Map常用方法

实际工作中，有时会出现map复杂数据类型，字段field1形式如：{‘k0’:‘abc’,‘k1’:‘01,02,03’,‘k2’:‘456’}，如果是string形式，我们可以适用get_json_object 函数，取出对应的value值，具体如：get_json_object（field,‘$

overfit同步小助手 2023-04-06 16:04:52 0 收藏

Zookeeper常见的面试题

Zookeeper常见的面试题1. 什么是Zookeeper？谈谈你对Zookeeper的认识？Zookeeper是一个分布式的，开放源代码的分布式应用程序协调服务。它是一个为分布式应用提供一致性服务的软件，提供的功能包括：配置维护、域名服务、分布式同步、组服务等。2. Zookeeper的核心功能

overfit同步小助手 2023-04-06 16:04:47 0 收藏

Elasticsearch通过RestHighLevelClient实现聚合分组及聚合计算查询

overfit同步小助手 2023-04-06 16:04:38 0 收藏

dolphinscheduler3.x本地启动

海豚调度源码启动以及二次开发。

overfit同步小助手 2023-04-06 16:04:24 0 收藏

【大数据技术】终于有人把数据质量管理讲明白了！数据质量：数据治理的核心

导读随着业务发展和数据量的增加，大数据应用开发已成为部门应用开发常用的开发方式，由于部门业务特点的关系，spark和hive应用开发在部门内部较为常见。当处理的数据量达到一定量级和系统的复杂度上升时，数据的唯一性、完整性、一致性等等校验就开始受到关注，而通常做法是根据业务特点，额外开发job如报表或

overfit同步小助手 2023-04-06 16:04:19 0 收藏

C# 连接SQL Sever 数据库与数据查询实例数据仓库

大数据时代在编程可能需要用到一些文本内容，不可能全部写到代码里，不好更改，用户也不方便使用所以需要用到我们的数据库来保存这些数据，直接更改数据SQL：下载地址：https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads1.现在后打开

overfit同步小助手 2023-04-06 16:04:14 0 收藏

云原生|kubernetes|搭建部署一个稳定高效的EFK日志系统

采集器fluentd的部署。【整体关键字段介绍】【部分关键变量介绍】

overfit同步小助手 2023-04-06 16:04:11 0 收藏

Windows安装Flink

Kibana操作ES 全覆盖基础查询 DSL查询

【Linux】安装hadoop详细步骤

RabbitMQ（消息中间件技术）

超详细【入门精讲】数据仓库原理&实战一步一步搭建数据仓库内附相应实验代码和镜像数据和脚本

mysql/oracle 数据库delete操作太慢（where ... in ...），不加索引，一招让性能提升百倍

小文件治理之hive文件合并：hive小文件合并的三种方法

MapReduce概述及工作流程

数据预处理概述

尚硅谷YYDS (课件资料)