大数据 - overfit.cn

0.flink学习资料

流式计算的基石文档，google出品建议：很值得读一读，学习flink的各个阶段都可以回来读一读，会有不同的收获。

overfit同步小助手 2023-09-03 01:04:14 0 收藏

纺织工业库房如何有效防潮？恒温恒湿真的有效吗？

纺织工业库房中的设备或存放的货物对温度或湿度的变化又非常敏感，温度或湿度的波动可能会产生一些问题。

overfit同步小助手 2023-09-02 21:03:55 0 收藏

HBase 2.3.7中snappy压缩配置

本文将介绍如何在HBase 2.3.7中配置snappy压缩。snappy是一种快速的数据压缩和解压缩算法，可以提高HBase的存储空间利用率和读写性能。本文使用了HBase 2.3.7版本，运行在三个Ubuntu系统的虚拟机中，分别作为master和slave节点。也可以使用其他版本的HBase和

overfit同步小助手 2023-09-02 19:04:01 0 收藏

大数据、人工智能、机器学习、深度学习关系联系前言

1.大数据和人工智能关系2.机器学习、深度学习、人工智能关系3.监督学习、无监督学习、半监督学习、强化学习、迁移学习关系4.机器学习具体内容

overfit同步小助手 2023-09-02 17:04:28 0 收藏

Spark on Yarn集群模式搭建及测试

Apache Spark是一个快速的、通用的大数据处理框架，它支持在各种环境中进行分布式数据处理和分析。在Yarn集群模式下搭建Spark环境可以充分利用Hadoop的资源管理和调度能力。本文将介绍如何搭建Spark on Yarn集群模式环境，步骤详细，代码量大，准备发车~

overfit同步小助手 2023-09-02 17:04:14 0 收藏

外贸行业企业邮箱选择：安全好用的邮箱服务

随着全球化的发展，外贸行业在全球经济中越来越重要。作为一家从事对外贸易的企业，可靠、安全、易用的邮箱系统对于成功的国际交易至关重要。为您的企业选择正确的邮箱解决方案可能是一个挑战。为了使选择过程更加简化，我们在这里提供了一些提示，以帮助您选择最适合您的外贸企业的邮箱解决方案。

overfit同步小助手 2023-09-02 09:08:43 0 收藏

上海市第十人民医院胃肠外科沈通一：以菌为药，非药而愈

目前国内益生菌行业的领创性技术——晶球技术，三层晶球无缝包裹，隔水隔氧耐酸耐碱，在利用人工模拟胃液的实验中，证实在胃液处理晶球2小时后，晶球益生菌形态完整，外壳胶层发生吸水溶胀，中间保护层形成具有一定应力的胶体，可保护晶球安全穿过胃酸屏障。我国慢性便秘患病率呈上升趋势，总体患病率为10.9%。随着现

overfit同步小助手 2023-09-02 09:05:25 0 收藏

【Hibench 】完成 HDP-Spark 性能测试

HiBench是Intel推出的一个大数据基准测试工具，可以帮助评估不同的大数据框架在速度、吞吐量和系统资源利用方面评估不同的大数据框架的性能表现。它包含一组Hadoop、Spark和流式WorkLoads，包括Sort、WordCount、TeraSort、Repartition、Sleep、SQ

overfit同步小助手 2023-09-02 07:04:20 0 收藏

大数据Flink（五十六）：Standalone伪分布环境（开发测试）

需要注意的是，“flink-${user}-standalonesession-${id}-${hostname}”和“flink-${user}- taskexecutor-${id}-${hostname}”都带有“${id}”，“${id}”表示本进程在本机上该角色（JobManager 或

overfit同步小助手 2023-09-02 04:04:29 0 收藏

elasticsearch7设置用户名和密码

elasticsearch7用户名密码设置

overfit同步小助手 2023-09-02 01:04:18 0 收藏

Hbase基础(一)——安装与使用

Hbase是一个分布式的、面向列的开源数据库，有区别于传统的行式数据库(如Mysql等)，与Hive数据仓库相比，更适合实时存储数据场景，但是与传统的列式数据库相比，更适合键值对的数据存取或者有序的数据存取。Hbase的版本有很多，读者在下载Hbase的压缩包之前，先去Hbase官网查看不同版本的h

overfit同步小助手 2023-09-01 16:04:34 0 收藏

Spark SQL

新手入门文章

overfit同步小助手 2023-09-01 16:03:42 0 收藏

Apache Doris 极简运维之BE扩缩容（1）

overfit同步小助手 2023-09-01 13:07:45 0 收藏

实战：大数据Spark简介与docker-compose搭建独立集群

Spark是采用分布式数据集RDD对数据进行管理，用内存进行分布式计算，他的性能叫hadoop有显著的提升。对于Spark独立集群的搭建我们用docker容器也是比较的简单，当然，我们也可以集成在springboot开发出适应业务的功能安装需求进行远程提交任务。

overfit同步小助手 2023-09-01 13:04:09 0 收藏

Flink 写入 Doris

apache Flink 写入 Apache Doris

overfit同步小助手 2023-09-01 12:04:17 0 收藏

Flink Dashboard的数据监控功能

overfit同步小助手 2023-09-01 11:04:22 0 收藏

如何飞速成为开源贡献者(Contributor)

overfit同步小助手 2023-09-01 08:04:50 0 收藏

Python与大数据：Hadoop、Spark和Pyspark的应用和数据处理技巧

通过Python强大的数据处理库和易用的编程语法，我们可以处理和分析大规模数据集，从中获得有价值的信息和见解。掌握一些数据处理技巧，如数据清洗、特征工程、数据聚合与汇总、并行处理和数据可视化，可以提高大数据处理的效率和准确性。通过不断学习和实践，读者可以不断探索和应用Python在大数据领域的新技术

overfit同步小助手 2023-09-01 07:04:07 0 收藏

Hbase-面试题

自动切分，默认情况下 2.0版本，第一次region的数据达到256M，会进行切分，以后就是每达到10G切分一次，切分完成后，会进行负载均衡，均衡到其他regionserver 预分区+自定义rowkey 可以理解为预切分比如预分区，每个regionserver会有10个region，每个re

overfit同步小助手 2023-09-01 07:03:46 0 收藏

Github配置SSH Key，clone验证，远端配置，详细教程

github ssh key配置，clone问题

overfit同步小助手 2023-09-01 05:04:49 0 收藏