大数据 - overfit.cn

高性能分布式对象存储——MinIO实战操作（MinIO扩容）

MinIO 是在 GNU Affero 通用公共许可证 v3.0 下发布的高性能对象存储。它与 Amazon S3 云存储服务 API 兼容。使用 MinIO 为机器学习、分析和应用程序数据工作负载构建高性能基础架构。

overfit同步小助手 2023-06-03 14:03:39 0 收藏

漏洞复现：Apache Spark 命令注入（CVE-2022-33891）

ApacheSparkUI可以设置选项spark.acls.enable启用ACL，使用身份验证过滤器。用以检查用户是否具有查看或修改应用程序的访问权限。如果启用了ACL则HttpSecurityFilter中的代码路径可以允许用户通过提供任意用户名来执行命令。该功能最终将根据用户输入构建一个Uni

overfit同步小助手 2023-06-03 10:07:24 0 收藏

大数据处理——Java

Java是处理大数据的首选语言之一，它可以与Apache Hadoop和Spark等大数据处理框架集成。Java提供了处理大数据所需的可扩展性和灵活性。

overfit同步小助手 2023-06-03 10:03:56 0 收藏

大数据之Hadoop数据仓库Hive

Hive 是一个构建在 Hadoop 之上的数据仓库，它可以将结构化的数据文件映射成表，并提供类 SQL 查询功能，用于查询的 SQL 语句会被转化为 MapReduce 作业，然后提交到 Hadoop 上运行。简单、容易上手 (提供了类似 sql 的查询语言 hql)，使得精通 sql 但是不了解

overfit同步小助手 2023-06-03 04:03:35 0 收藏

云计算与大数据实验五 MapReduce编程

函数的输入键，输入值，和输出键，输出值的类型。就第一关的例子来说，输入键是一个长整型，输入值是一行文本，输出键是单词，输出值是单词出现的次数。程序会对你编写的代码进行测试：输入已经指定了测试文本数据：需要你的程序输出合并去重后的结果。是一种可用于数据处理的编程模型，我们现在设想一个场景，你接到一个

overfit同步小助手 2023-06-03 02:04:00 0 收藏

MQTT5.0新特性（比对3.1.1）

MQTT（MessageQueuingTelemetryTransport），即消息队列遥测传输协议，是一种基于发布/订阅的消息传输协议。其轻量、开放、简洁和易实现的特点能够适用于要求代码量小、网络带宽资源匮乏的情景，如机器间通信（M2M）、物联网等。...

overfit同步小助手 2023-06-03 01:03:30 0 收藏

【程序人生】纳瓦尔：确保稀缺性的最简单的方法就是这个东西来自你的个性 | 纳瓦尔宝典

纳瓦尔在《纳瓦尔宝典》这本书的后半部分，探讨了许多关于幸福人生的思考。他用格言式的思考加上循循善诱的解释来传递自己的幸福观和人生观，展示出了一种不同于传统思维的生活态度。这些观点虽然简洁明了，但是它们背后所蕴含的哲学思想却十分深刻。对于我们每个人来说，这些观点都具有重要的启示意义，帮助我们更好地追求

overfit同步小助手 2023-06-02 21:03:43 0 收藏

数据库审核工具SQLE部署及使用

点击上方蓝字关注我SQLE（ https://opensource.actionsky.com/sqle/ ）是由上海爱可生信息技术股份有限公司开发并开源，支持多场景审核，支持标准化上线流程，原生支持 MySQL 审核且数据库类型可扩展的 SQL 审核工具。我们可以基于此工具进行数据库SQL审核，

overfit同步小助手 2023-06-02 18:03:44 0 收藏

Kafka实时数据同步

支持Oracle、DB2、SQL Server、MySQL、达梦等交易数据库实时数据捕获（日志解析），支持SAP Hana、GreenPlum、ClickHouse、Hbase、Hive等分析数据库批量数据写入。支持实时捕获业务系统变化数据并将其发步到Kafka，也支持从Kafka订阅实时数据并写入

overfit同步小助手 2023-06-02 17:03:42 0 收藏

基于Spark的电影推荐系统实现

受某视频网站委托，需开发一套基于Spark的大数据机器学习系统，应用协同过滤算法对网站客户进行电影推荐。本案例所使用的数据集说明如下：评分数据集：/data/dataset/ml/movielens/ratings.csv 电影数据集：/data/dataset/ml/movielens/mo

overfit同步小助手 2023-06-02 16:03:45 0 收藏

Es 介绍

每隔 5s，将数据写入 translog 文件（这样如果机器宕机，内存数据全没，最多会有 5s 的数据丢失），translog 大到一定程度，或者默认每隔 30mins，会触发 commit 操作，将缓冲区的数据都 flush 到 segment file 磁盘文件中。拆分多个 shard 是有好处

overfit同步小助手 2023-06-02 14:03:39 0 收藏

2021 年高教社杯全国大学生数学建模竞赛 E 题中药材的鉴别第一题

数据预处理>特征值提取>聚类分析>类别差异分析

overfit同步小助手 2023-06-02 13:04:14 0 收藏

解决hive表中文乱码问题

hive字段名称和字段描述等存储进如hivemetastore是中文，查询出来也是???等无法识别的中文乱码；

overfit同步小助手 2023-06-02 12:03:36 0 收藏

windows入门级Elasticsearch安装教程

windows上elasticsearch的安装和一些基本的操作，初学者方便学习，本人也是初学者记录一下学习过程和心得

overfit同步小助手 2023-06-02 11:04:08 0 收藏

如何在eclipse里面配置maven？

Apache Maven是一个项目管理和自动构建工具，基于项目对象模型（POM）的概念。作用：完成项目的相关操作，如：编译，构建，单元测试，安装，网站生成和基于Maven部署项目。1. Window - Preferences 2.直接选择路径就可以了(不要选bin目录，会报错)，然

overfit同步小助手 2023-06-02 11:03:55 0 收藏

用户标签体系建设

用户标签提体系建设

overfit同步小助手 2023-06-02 10:03:44 0 收藏

浅谈企业数字化转型之主数据管理系统（MDM）

搭建主数据管理系统，可以有效帮助企业建立统一的数据规范，建立统一的管理维护流程，将从不同来源提取的通用数据，分布在集团范围内的不同系统（例如，企业ERP、CRM、以及集团中的子公司使用的不同业务系统）之间的通用基础数据，分离出来，建立数据的单一可信版本，进行集中统一管理。将这些被分离出来的通用的主数

overfit同步小助手 2023-06-02 06:03:34 0 收藏

人工智能神经网络概念股,神经网络芯片概念股

人工智能包含硬件智能、软件智能和其他。硬件智能包括：汉王科技、康力电梯、慈星股份、东方网力、高新兴、紫光股份。软件智能包括：金自天正、科大讯飞。其他类包括：中科曙光、京山轻机。谷歌人工智能写作项目：小发猫1、苏州科达：苏州科达科技股份有限公司是领先的视讯与安防产品及解决方案提供商，致力于以视频会议、

overfit同步小助手 2023-06-02 05:01:28 0 收藏

实验7 Spark初级编程实践

1.实验目的（1）掌握使用Spark访问本地文件和HDFS文件的方法（2）掌握Spark应用程序的编写、编译和运行方法2.实验平台（1）操作系统：Ubuntu18.04（或Ubuntu16.04）；（2）Spark版本：2.4.0；（3）Hadoop版本：3.1.3。3.实验步骤（1）Spark读取

overfit同步小助手 2023-06-02 01:03:37 0 收藏

Hive合并小文件详解(参数介绍)

一、MR输出时合并小文件参数设置含义set hive.merge.mapfiles=true; 默认值ture,在Map-only的任务结束时合并小文件set hive.merge.mapredfiles=true; 默认值false,在Map-Reduce的任务结束时合并小文件set hive.

overfit同步小助手 2023-06-01 22:03:50 0 收藏