大数据 - overfit.cn

Ubuntu下搭建伪分布式从0开始安装Hive详细教程（从JDK安装、Hadoop搭建开始）

overfit同步小助手 2023-06-02 12:03:43 0 收藏

解决hive表中文乱码问题

hive字段名称和字段描述等存储进如hivemetastore是中文，查询出来也是???等无法识别的中文乱码；

overfit同步小助手 2023-06-02 12:03:36 0 收藏

windows入门级Elasticsearch安装教程

windows上elasticsearch的安装和一些基本的操作，初学者方便学习，本人也是初学者记录一下学习过程和心得

overfit同步小助手 2023-06-02 11:04:08 0 收藏

如何在eclipse里面配置maven？

Apache Maven是一个项目管理和自动构建工具，基于项目对象模型（POM）的概念。作用：完成项目的相关操作，如：编译，构建，单元测试，安装，网站生成和基于Maven部署项目。1. Window - Preferences 2.直接选择路径就可以了(不要选bin目录，会报错)，然

overfit同步小助手 2023-06-02 11:03:55 0 收藏

用户标签体系建设

用户标签提体系建设

overfit同步小助手 2023-06-02 10:03:44 0 收藏

Kafka消息的压缩机制

大纲Kafka支持的消息压缩类型什么是 Kafka 的消息压缩消息压缩类型何时需要压缩如何开启压缩在 Broker 端开启压缩compression.type 属性broker 和 topic 两个级别broker 级别topic 级别在 Producer 端压缩compression.type 属

overfit同步小助手 2023-06-02 09:03:42 0 收藏

浅谈企业数字化转型之主数据管理系统（MDM）

搭建主数据管理系统，可以有效帮助企业建立统一的数据规范，建立统一的管理维护流程，将从不同来源提取的通用数据，分布在集团范围内的不同系统（例如，企业ERP、CRM、以及集团中的子公司使用的不同业务系统）之间的通用基础数据，分离出来，建立数据的单一可信版本，进行集中统一管理。将这些被分离出来的通用的主数

overfit同步小助手 2023-06-02 06:03:34 0 收藏

实验7 Spark初级编程实践

1.实验目的（1）掌握使用Spark访问本地文件和HDFS文件的方法（2）掌握Spark应用程序的编写、编译和运行方法2.实验平台（1）操作系统：Ubuntu18.04（或Ubuntu16.04）；（2）Spark版本：2.4.0；（3）Hadoop版本：3.1.3。3.实验步骤（1）Spark读取

overfit同步小助手 2023-06-02 01:03:37 0 收藏

Hive常用的日期函数

HiveSQL中较为常用的日期处理函数整理汇总

overfit同步小助手 2023-06-02 00:03:38 0 收藏

Java 001：通过OPC UA协议连接KepServerEx进行读、写、订阅操作

C#、Java、c/c++通过OPC UA协议对接KepServerEX，最终对接西门子PLC S7-200、S7-1200、S7-300、S7-1500、S7-400、S7-1500

overfit同步小助手 2023-06-01 23:03:55 0 收藏

MapReduce实现词频统计

1.词频统计任务要求准备两个txt文件分别为wordfile1.txt和wordfile2.txt，内容如下：2.在Eclipse中创建项目我的eclipse在usr/local/eclipse目录下，使用如下命令启动cd /usr/local/eclipse./eclipse

overfit同步小助手 2023-06-01 23:03:46 0 收藏

Hive合并小文件详解(参数介绍)

一、MR输出时合并小文件参数设置含义set hive.merge.mapfiles=true; 默认值ture,在Map-only的任务结束时合并小文件set hive.merge.mapredfiles=true; 默认值false,在Map-Reduce的任务结束时合并小文件set hive.

overfit同步小助手 2023-06-01 22:03:50 0 收藏

【Kafka】【十九】新消费组的消费offset规则

新消费组中的消费者在启动以后，默认会从当前分区的最后⼀条消息的offset+1开始消费（消费新消息）。可以通过以下的设置，让新的消费者第⼀次从头开始消费。之后开始消费新消息（最后消费的位置的偏移量+1）

overfit同步小助手 2023-06-01 16:03:38 0 收藏

数据开发全流程

定规范将是数仓建设的核心步骤，因为前期规范如果没定义好，后面所有的开发、迭代都会稀里糊涂，最直接的影响就是数据的使用效率低下，更长远的将会极大提高数据治理的成本。规范定义主要定义指标体系，包括原子指标、修饰词、时间周期和派生指标。时间周期用来明确数据统计的时间范围或者时间点，如最近 30 天、自然周

overfit同步小助手 2023-06-01 14:03:43 0 收藏

GPT技术的发展与应用

overfit同步小助手 2023-06-01 14:03:40 0 收藏

风靡全球，TikTok会是下一个跨境电商巨头吗？怎么申请Tik Tok-MCN呢？（内附详细步骤）

TikTok 的FYP 功能，可以让更多的用户看到。近期, TikTok持续发力跨境电商，虽然目前还不能说全球最大的跨境电商平台，但凭借着独特的商业模式、在用户中的良好口碑以及众多品牌的支持，它能在短视频领域持续占据一席之地。同时其他的跨境电商，比如亚马逊、虾皮等等现在基本饱和，获客成本也越来越高，

overfit同步小助手 2023-06-01 13:03:57 0 收藏

虚拟机CentOs7配置网络（NAT模式）

虚拟机网络配置NAT模式，虚拟机ping不通外网，Hadoop集群网络配置

overfit同步小助手 2023-06-01 12:03:44 0 收藏

kafka命令之消费者组

kafka消费者组命令

overfit同步小助手 2023-06-01 12:03:37 0 收藏

大数据OLAP查询引擎选型对比

目前大数据比较常用的OLAP查询引擎包括：Presto、Impala、Druid、Kylin、Doris、Clickhouse、GreenPlum等。不同引擎特点不尽相同，针对不同场景，可能每个引擎的表现也各有优缺点。

overfit同步小助手 2023-06-01 11:04:20 0 收藏

数据资源 | 为什么要做数据清洗？

大数据时代，产生的数据多以非结构化数据为主，由于非结构化数据并不能直接为研究所用，因此多数情况下，需要将非结构结构化数据转化成结构化数据，而在这个过程中，就存在必要的数据清洗，将其转化成符合研究的数据格式。

overfit同步小助手 2023-06-01 11:03:51 0 收藏