大数据 - overfit.cn

Elasticsearch - Elasticsearch 8.X；Elasticsearch 8.X集群（十）

支持矩阵 | Elastic。

overfit同步小助手 2023-03-23 20:05:12 0 收藏

Kafka由浅入深（3）一文读懂弃用默认分区器DefaultPartitioner KIP-794

KIP-480：Sticky Partitioner引入了 UniformStickyPartitioner 并使其成为默认分区器。事实证明，尽管被称为统一粘性分区器（ UniformStickyPartitioner），但粘性分区器存在问题而实际上并没有统一。

overfit同步小助手 2023-03-23 20:05:09 0 收藏

大数据大比拼：Hive vs HBase，你知道两者的区别和适用场景吗？

Apache Hive和Apache HBase是两个非常流行的分布式数据存储技术。尽管两者都是Apache软件基金会的项目，但它们被设计用于不同的用例。在本篇博客中，我们将介绍Hive和HBase的基本概念，以及它们的区别和应用场景。

overfit同步小助手 2023-03-23 20:05:05 0 收藏

单线程事件处理器ControllerEventManager

单线程事件处理器，Controller端定义的一个组件。该组件内置了一个专属线程，负责处理其他线程发送过来的Controller事件。还定义了一些管理方法，为专属线程输送待处理事件。0.11.0.0版本前，Controller组件源码复杂。集群元数据信息在程序中同时被多个线程访问，因此，源码里有大量

overfit同步小助手 2023-03-23 20:04:55 0 收藏

（面试经典问题）HDFS上传文件（写）流程

HDFS写流程详述，以及面试如何回答

overfit同步小助手 2023-03-23 20:04:40 0 收藏

【毕业设计】基于机器学习与大数据的糖尿病预测

本项目以体检数据集为样本进行了机器学习的预测，但是需要注意几个问题：体检数据量太少，仅有1006条可分析数据，这对于糖尿病预测来说是远远不足的，所分析的结果代表性不强。这里的数据糖尿病和正常人基本相当，而真实的数据具有很强的不平衡性。也就是说，糖尿病患者要远少于正常人，这种不平衡的数据集给真实情况下

overfit同步小助手 2023-03-23 20:04:37 0 收藏

Hadoop命令大全

hadoop fs -count [-h] (-h 参数使用便于操作人员读取单位信息格式)- hadoop fs 可操作任意文件系统，不仅仅是hdfs文件系统，使用范围更广。5.count：命令用于统计指定目录下的目录数、文件数、字节数。4.-df：统计文件系统的容量、可用空间和已用空间信息。-

overfit同步小助手 2023-03-23 20:04:28 0 收藏

BP使用之爆破获取密码

bp爆破

overfit同步小助手 2023-03-23 19:10:15 0 收藏

MES系统生产制造流程分析

当今时代，社会在逐渐的进步，MES成为企业不可或缺的生产管理系统，MES系统对工厂生产的实时事件及时作出相应的反应和报告，并用当前准确的数据对进行相应的指导和处理，所以MES系统对企业发展重要性不言而喻。...

overfit同步小助手 2023-03-23 19:05:33 0 收藏

sparkSQL连接hive失败案例和解决办法

overfit同步小助手 2023-03-23 19:05:21 0 收藏

flink任务内存调优，TaskManager、JobManager内存配置

Flink是基于java的JVM运行，拥有高效的数据处理能力，但是考虑到用户在 Flink 上运行的应用的多样性，尽管flink框架已经为所有配置项提供合理的默认值，仍无法满足所有情况下的需求。 flink进程总内存、taskmanager内存、jobmanager内存配置...

overfit同步小助手 2023-03-23 19:05:18 0 收藏

“华为杯”研究生数学建模竞赛2004年-【华为杯】C题：售后服务数据的运用（附优秀论文）

产品质量是企业的生命线，售后服务是产品质量的观测点，如何用好售后服务的数据是现代企业管理的重要问题之一。现以某轿车生产厂家为例考虑这个问题。假设该厂的保修期是三年,即在某轿车售出后三年中对于非人为原因损坏的轿车免费维修。在全国各地的维修站通过网络将保修记录送到统一的数据库里面，原始数据主要是这是哪个

overfit同步小助手 2023-03-23 19:05:12 0 收藏

Hive知识梳理

Hive是建立在 Hadoop 上的数据仓库基础构架。可以将SQL查询转换为MapReduce的job在Hadoop集群上执行。

overfit同步小助手 2023-03-23 19:05:03 0 收藏

设计数据密集型应用(一)，DDIA

数据密集型应用系统设计

overfit同步小助手 2023-03-23 19:04:57 0 收藏

Flink二阶段提交

XA（eXtended Architecture）是指由X/Open 组织提出的分布式交易处理的规范。XA 是一个分布式事务协议，由Tuxedo 提出，所以分布式事务也称为XA 事务。XA 协议主要定义了事务管理器TM（Transaction Manager，协调者）和资源管理器RM（Resourc

overfit同步小助手 2023-03-23 19:04:50 0 收藏

Elasticsearch7 添加密码验证、并且使用postman访问带密码的es

运行完以后则会出现以上界面，先是提醒你，es链接会需要密码，可能会影响现在的使用，再接下来就是会默认的创建6个用户，并让你设置这六个用户的密码（忽略掉用户名，这些用户权限都是相同，密码设置均为:123456）在es7.0版本以后（之前的版本没怎么用过，不太清楚）安装包默认自带了xpack功能，所以只

overfit同步小助手 2023-03-23 18:07:50 0 收藏

dolphinscheduler 3.0.1 资源中心

资源中心通常用于上传文件、UDF 函数和任务组管理。对于 standalone环境，可以选择本地文件目录作为上传文件夹（此操作不需要Hadoop部署）。当然，你也可以选择上传到 Hadoop 或者 MinIO 集群。在这种情况下，您需要有 Hadoop（2.6+）或 MinION 等相关环境。

overfit同步小助手 2023-03-23 18:05:37 0 收藏

一文弄懂Hive中谓词下推(on与where的区别)

Hive谓词下推与where和on的使用时机，一文就能理解透彻

overfit同步小助手 2023-03-23 18:05:25 0 收藏

江瀚新材登陆上交所主板：募资约24亿元，甘书官父子为实际控制人

江瀚新材登陆上交所主板

overfit同步小助手 2023-03-23 18:05:17 0 收藏

高并发高可用之ElasticSearch

ES的数据存储在磁盘中，数据操作在内存中。注意：ElasticSearch6.0之后移除了类型的概念。7.x使用类型会警告，8.x将彻底废除。安装ES查看日志命令：查看docker镜像ID命令：运行docker镜像：访问：安装kibanakibana访问地址：http://192.168.239.1

overfit同步小助手 2023-03-23 18:05:14 0 收藏