大数据 - overfit.cn

datax、dataxweb、kettle的安装与简单使用及常见报错处理

datax、dataxweb、kettle的安装与简单使用，以及对可能出现的报错的分析与解决

overfit同步小助手 2023-04-19 12:03:59 0 收藏

数仓开发之DWS层（一）

设计要点：（1）DWS层的设计参考指标体系；（2）DWS层表名的命名规范为dws_数据域_统计粒度_业务过程_统计周期（window）注：window 表示窗口对应的时间范围。

overfit同步小助手 2023-04-19 11:03:57 0 收藏

大数据Flink进阶（十九）：TaskSlot深入了解

通过调整taskSlot的数据量，用户可以指定每个TaskManager有多少task slot，TaskManager可以配置成单Slot模式，这样这个JobManager上运行的任务就独占了整个JVM进程，更多的taskSlot意味着更多的subtask可以共享同一个JVM,同一个JVM中的ta

overfit同步小助手 2023-04-19 11:03:48 0 收藏

2023中国程序员薪酬报告出炉，你拖后腿了吗？

程序员薪资高已是公认的事实，但是具体高到什么程度呢？近期，全球人力服务公司Michael Page Internatioal 就发布了《2023 中国大陆薪酬报告》，揭示了中国程序员的薪酬情况。该报告中一共调研了国内7 个行业以及6 大城市不同职级以及不同岗位的薪资水平

overfit同步小助手 2023-04-19 10:04:07 0 收藏

JavaAPI操作Hive

overfit同步小助手 2023-04-19 07:03:39 0 收藏

hive创建表后怎么新增分区结构（创建表时没有创建分区）

hive在创建表时没有添加分区结构（希望大家不要杠，硬说是字段，只要您高兴，您怎么说都行），增加分区结构的方法

overfit同步小助手 2023-04-19 05:03:47 0 收藏

Neo4j使用记录--APOC和GDS的安装【实践】

对Neo4j的两个插件APOC和GDS在community版本中的安装流程进行了细致介绍，扫除安装盲点。

overfit同步小助手 2023-04-19 05:03:44 0 收藏

Windows下配置Hadoop及Spark环境

前言教程所用各版本说明一 JDK环境配置由于项目用的JDK17，所以单独给Hadoop配了JDK11，建议直接配置JAVA_HOME环境变量为JDK11，因为后面Spark需要用到JAVA_HOME下载jdk-11.0.13_windows-x64_bin.zip链接：https://www.or

overfit同步小助手 2023-04-19 05:03:38 0 收藏

手把手教你快速在生产环境搭建Doris集群附集群启停管理脚本

手把手教你快速在生产环境搭建Doris集群

overfit同步小助手 2023-04-19 04:03:46 0 收藏

ElasticSearch 分页查询及深度分页原理与实现

的方式要更加高效，而且在不断有新数据入库的时候仅仅使用 from 和 size 分页会有重复的情况，相比使用 scroll 分页，search_after 可以进行实时的查询,不过 search_after。分页的深度，ElasticSearch 的分页窗口默认最多允许 10000 条数据，即在每

overfit同步小助手 2023-04-19 04:03:39 0 收藏

【数据分析】：数据分析三大思路及方法

在上一篇博文【什么是数据分析】中，我们介绍了数据分析的基本概念、流程、方法。这篇文章我们来看看数据分析的基本思路以及常见的数据分析方法。接下来，我们来看看如何进行一个完整的数据分析过程。......

overfit同步小助手 2023-04-19 02:03:49 0 收藏

大数据Hadoop集群搭建 1（伪分布式集群）

（2）另一种是Hadoop集群自定义配置时编辑的配置文件，包括hadoop-env.sh、yarn-env.sh、core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml和slaves共7个文件，可以根据需要在这些文件中对默认配置文件中的参数

overfit同步小助手 2023-04-19 01:03:55 0 收藏

【Spark手机流量日志处理】使用SparkSQL按月统计流量使用量最多的用户

Spark SQL是Apache Spark的一个模块，提供了一种基于结构化数据的编程接口。它允许用户使用SQL语句或DataFrame API来查询和操作数据，同时还支持使用Spark的分布式计算引擎进行高效的并行计算。Spark SQL支持多种数据源，包括Hive、JSON、Parquet、Av

overfit同步小助手 2023-04-18 22:03:51 0 收藏

接口优化的目录（建议收藏）

许多开发者可能经历过这样的情形：一旦完成了代码的编写和发布，就觉得工作完成了，不再关注代码优化和改进。这是很常见的现象，因为在紧张的开发进程中，优化代码可能会成为一项非常困难的任务，需要花费大量的时间和精力。但是，如果您想成为一位高级开发人员，您需要了解一些优化技术，以提高代码的性能和可维护性。但是

overfit同步小助手 2023-04-18 22:03:41 0 收藏

毕业设计-国内疫情数据综合可视化分析系统

毕业设计-国内疫情数据综合可视化分析系统:自从２０２０年新型冠状病毒肺炎疫情发生后，人们对疫情情况非常关注。大数据背景下，网络时刻产生海量疫情方面数据，这些数据只有被合理解读与展示，民众才能更好了解真实情况。借助网络爬虫技术和Ｅｃｈａｒｔｓ技术，再通过爬虫从网上获取到每日疫情的各项

overfit同步小助手 2023-04-18 19:04:12 0 收藏

Elasticsearch：关于在 Python 中使用 Elasticsearch 你需要知道的一切 - 8.x

Elasticsearch 是一个非常强大的搜索引擎，使用非常广泛。本文的重点是使用 Python 批量创建 Elasticsearch 文档。我们仅仅触及了 Elasticsearch 搜索查询的皮毛。我有专门的文章介绍 Elasticsearch的基本查询和高级查询，用于搜索和分析。Elast

overfit同步小助手 2023-04-18 19:03:50 0 收藏

万字泣血解析割韭菜内情，程序员别老想着做副业

今年见了不少人被割韭菜，下半年尤为严重，这种情形甚至在技术行业蔓延，令人深感大环境的复杂变化，所以我写这篇文章情真意切，希望大家不要做被割韭菜的人，副业可以适当了解接触，但作为程序员请千万不要老想着副业。

overfit同步小助手 2023-04-18 18:03:43 0 收藏

云计算与大数据-虚拟化与容器技术题库

VMX模式包括根操作（VMX Root Operation）模式和非根操作（VMX Non-Root Operation）模式，由于这两种模式中都存在Ring0到Ring3的特权级，所以在描述某个应用程序时，除了描述它属于哪个特权级，还要指明它处于根操作模式还是非根操作模式。同样的硬件环境，容器运行

overfit同步小助手 2023-04-18 16:03:53 0 收藏

搜索技术elasticsearch 和 kibana开启及docker启动

虚拟机中启动1、先启elasticsearch 浏览器访问：http://192.168.1.179:9200失败：原因1.防火墙没有关闭原因2.配置文件 network.hosts修改错误或者集群节点主机名配置错误cd /opt/es/kibana/bin （自己的）no

overfit同步小助手 2023-04-18 15:03:34 0 收藏

大数据技术——Flume实战案例

1. 复制和多路复用1.1 案例需求1.2 需求分析1.3 实现操作2. 负载均衡和故障转移2.1 案例需求2.2 需求分析2.3 实现操作3. 聚合操作3.1 案例需求3.2 需求分析3.3 实现操作

overfit同步小助手 2023-04-18 10:03:57 0 收藏