大数据 - overfit.cn

数据仓库高级面试题

overfit同步小助手 2023-12-16 16:03:36 0 收藏

Git的常见命令和远程库操作

git常见命令和远程库以gitee为例的操作，还有版本冲突的解释与初学常见问题的应对

overfit同步小助手 2023-12-16 13:04:21 0 收藏

Hadoop问题：start-all.sh显示未找到命令

在sbin文件夹下是start-all.sh可以运行的，但是到了别的文件夹下就不行了，于是想到了是文件路径问题，因为hadoop环境是和java环境一起配置的导致sbin写成了bin。（补充）其实也有其他方法，就是在profile中设置环境变量，但一般不建议在这配置，因为在这个文件中配置是对所有用户

overfit同步小助手 2023-12-16 11:03:45 0 收藏

大数据 DataX-Web 详细安装教程

overfit同步小助手 2023-12-16 09:03:29 0 收藏

XXL-JOB分布式任务调度

时间轮出自Netty中的HashedWheelTimer，是一个环形结构，可以用时钟来类比，钟面上有很多bucket，每一个bucket上可以存放多个任务，使用一个List保存该时刻到期的所有任务，同时一个指针随着时间流逝一格一格转动，并执行对应bucket上所有到期的任务。支持可视化、简单且动态的

overfit同步小助手 2023-12-16 09:03:24 0 收藏

spark dynamicAllocation详解及使用

动态资源分配策略在空闲时释放 Executor，繁忙时申请 Executor，虽然逻辑比较简单，但是和任务调度密切相关。它可以防止小数据申请大资源，Executor 空转的情况。在集群资源紧张，有多个 Spark 应用的场景下，可以开启动态分配达到资源按需使用的效果。

overfit同步小助手 2023-12-16 04:03:43 0 收藏

为什么 Flink 抛弃了 Scala

Java的可移植性和跨平台性也是其受欢迎的原因之一。另外，Java社区的活跃程度也是不容忽视的，Java的开发者群体庞大且经验丰富，他们可以为Flink提供宝贵的支持和指导，从而帮助用户更好地使用和优化Flink的功能。随着时间的推移，Flink社区的主要焦点已经转向JavaAPI，而Flink中的

overfit同步小助手 2023-12-16 01:03:40 0 收藏

2023_Spark_实验二十一：Zookeeper单机安装与配置

Zookeeper单机模式linux部署

overfit同步小助手 2023-12-15 23:03:49 0 收藏

【Sqoop】MySQL表导入Hive

用 Sqoop 将 MySQL 指定数据库指定的表导入Hive 的指定数据库。

overfit同步小助手 2023-12-15 21:03:46 0 收藏

轻松通关Flink第20讲：Flink 高级应用之海量数据高效去重

这一课时我们讲解了多种不同的 Flink 大数据下的去重方法，并且详细比较了它们的异同。在实际的业务场景中，精确去重和非精确去重需要灵活选择不同的方案，在准确性和效率上达到统一。点击这里下载本课程源码。

overfit同步小助手 2023-12-15 18:03:36 0 收藏

大数据Vue项目必备|Window下安装并使用nvm（含卸载node、卸载nvm、全局安装npm）

在Windows环境下，进行大数据Vue项目开发时，使用Node Version Manager（nvm）是一个必备工具。通过本文，可以轻松在Windows系统下配置和管理Node.js版本，确保项目的依赖关系得到正确满足。这对于大数据Vue项目和其它项目的部署的开发和运行是必要的。

overfit同步小助手 2023-12-15 18:03:33 0 收藏

【Flink实战】玩转Flink里面核心的Sink Operator实战

在Flink中，Sink Operator（也称为Sink Function或Sink）是指负责将DataStream或DataSet的数据发送到外部存储或外部系统的操作符。Sink Operator是Flink的数据输出端，它的作用是将处理过的数据写入目标位置，如数据库、文件系统、消息队列等。Si

overfit同步小助手 2023-12-15 18:03:16 0 收藏

2024上海智博会,上海国际智慧城市,物联网,大数据展会（世亚智博会）

overfit同步小助手 2023-12-15 17:03:30 0 收藏

CentOS 7 修改文件最大打开数 - 处理大数据

然而，默认情况下，CentOS 7的文件打开数限制可能会成为一个限制因素。为了允许更多的文件同时打开，我们可以通过调整操作系统的文件最大打开数来解决这个问题。本文将详细介绍如何在CentOS 7上修改文件最大打开数。希望本文能够帮助您在CentOS 7上成功修改文件最大打开数，以便更好地处理大数据任

overfit同步小助手 2023-12-15 14:03:44 0 收藏

python中导入pyspark中的sparkconf和sparkcontext错误

解决过程：通过everything软件快捷搜索磁盘找到pyspark目录，发现有conf.py和context.py两个文件，猜测与导入的包有关联，用pycharm打开conf.py发现在其中创建了Sparkconf的类。解决方法1：直接将将源py文件的from pyspark import Spa

overfit同步小助手 2023-12-15 13:03:51 0 收藏

HBase的RowKey详解、RowKey设计原则和RowKey优化方法

overfit同步小助手 2023-12-15 12:03:51 0 收藏

hadoop完全分布式搭建

Hadoop完全分布式搭建需要按照以下步骤进行：安装虚拟机：首先需要安装虚拟机软件，例如VMware等，然后在虚拟机软件中创建新的虚拟机，设置虚拟机的操作系统、内存、处理器等参数。配置网络：在虚拟机中配置网络，使得虚拟机可以与外部网络进行通信。安装Hadoop：在虚拟机中安装Hadoop，并配置相关

overfit同步小助手 2023-12-15 08:03:22 0 收藏

启动hive时去掉没有用的日志信息

log4j.rootLogger：这个是设置日志级别的，当设置成不同的日志级别时，展示的日志输出是不一样的。当日志级别为WARN时，打印的还是不少日志信息。

overfit同步小助手 2023-12-15 07:03:43 0 收藏

E往无前｜腾讯云大数据ES索引原理剖析及写入性能优化最佳实践

本文经过大量案例总结和踩坑复盘，归纳整理了Elastisearch集群在写入性能优化方面一些常用的优化技巧和避坑指南。

overfit同步小助手 2023-12-15 04:03:42 0 收藏

大数据技术原理与应用概念、存储、处理、分析和应用（林子雨）——第三章分布式文件系统HDFS

林子雨主编的大数据技术原理与应用第三章学习记录。

overfit同步小助手 2023-12-15 01:03:49 0 收藏