大数据 - overfit.cn

随着现代科技的发展和互联网的普及，大数据技术正在逐渐渗透到各行各业，包括旅游业。传统的旅游业数据分析主要依赖于抽样调查和实地考察，这种方法不仅需要大量的人力和物力，而且往往存在数据不准确的问题。然而，大数据技术的出现，使得我们可以更准确、更快速地分析游客数据，从而更好地规划旅游资源和服务。因此，基于

overfit同步小助手 2024-01-05 03:03:09 0 收藏

【Hadoop_04】HDFS的API操作与读写流程

此策略减少了机架间的写入流量，从而总体上提高了写入性能。机架故障的几率远小于节点故障的几率；该策略不影响数据可靠性和可用性保证。但是，它确实减少了读取数据时使用的聚合网络带宽，因为一个数据块只放在两个不同的机架中，而不是三个。使用此策略，文件的副本不会均匀分布在机架上。三分之一的副本位于一个节点上，

overfit同步小助手 2024-01-05 01:03:13 0 收藏

大数据存储架构学习摘要：数据仓库、数据集市、数据湖、数据网格、湖仓一体

1、数据库（Database）是一个存储相关数据的地方，用于捕获特定情况的数据。它可以是结构化、关系型、非结构化或NoSQL数据库。数据库主要用于在线事务处理（OLTP），处理实时的事务数据，并具有特定的目的和应用。2、数据仓库（Data Warehouse）是组织的核心分析系统，用于存储历史数据和

overfit同步小助手 2024-01-04 23:03:52 0 收藏

关于flink重新提交任务，重复消费kafka的坑

1、savepoint的数据要比checkpoint更加稳定，比如你可以通过移动（拷贝）savepoint 目录到任意地方，然后再进行恢复。checkpoint就不可以，因为他有很多相对路径配置。2、savepoint和checkpoint一般都能作为恢复点使用，例外情况是使用 RocksDB 状态

overfit同步小助手 2024-01-04 23:03:49 0 收藏

HBase的安装与简单操作 - 头歌

HBase的安装与简单操作

overfit同步小助手 2024-01-04 20:03:49 0 收藏

信息论与人工智能的伦理问题: 如何平衡利益与风险

1.背景介绍信息论与人工智能的伦理问题是近年来随着人工智能技术的快速发展而引起的一个重要话题。随着数据、算法和计算能力的不断发展，人工智能技术已经成为了许多领域的重要驱动力，例如医疗诊断、金融风险管理、自动驾驶等。然而，随着人工智能技术的广泛应用，也引发了一系列伦理问题，例如隐私保护、数据安全、算法

overfit同步小助手 2024-01-04 20:01:34 0 收藏

Spark中使用scala完成数据抽取任务 -- 总结

任务二：离线数据处理，校赛题目需要使用spark框架将mysql数据库中ds_db01数据库的user_info表的内容抽取到Hive库的user_info表中，并且添加一个字段设置字段的格式第二个任务和第一个的内容几乎一样。

overfit同步小助手 2024-01-04 19:03:55 0 收藏

Flink 内容分享(十二)：Flink在金融行业的应用

目录众安保险用户背景平台概况应用场景未来规划蚂蚁集团主要挑战架构方案核心技术介绍1.热启动技术编辑 2.K8S集群模式编辑3.流批一体技术以下内容来自众安保险的Flink架构师的分享众安在线财产保险股份有限公司是中国首家互联网保险公司，众安总部位于上海，不设任何分支机构，完全通过互联网展业。由"

overfit同步小助手 2024-01-04 15:03:26 0 收藏

spark-submit 任务提交指定类名错误解决：Error: Failed to load class

在提交spark任务的时候，若 --class参数类名指定错误会让任务无法运行。找到自己需要运行的任务，就可以直接使用spark-submit命令上传任务了。那么如果不会看文件路径的话，如何精准找出自己打包的类名呢？

overfit同步小助手 2024-01-04 15:03:11 0 收藏

跨境电商中的安全挑战与隐擎Fox指纹浏览器的应用

隐擎Fox指纹浏览器的概述：隐擎Fox指纹浏览器作为应对跨境电商安全挑战的新兴技术，具有独特的特点。为了应对这些挑战，诸多技术手段被开发出来，其中隐擎Fox指纹浏览器作为一种防关联浏览器和多开浏览器的解决方案，引起了广泛关注。跨境电商的兴起与安全挑战：跨境电商的兴起带来了巨大的商机，企业可以更轻

overfit同步小助手 2024-01-04 13:07:05 0 收藏

大数据 DataX 详细安装教程

overfit同步小助手 2024-01-04 12:03:18 0 收藏

hiveserver负载均衡配置

hiveserver2的负载均衡配置

overfit同步小助手 2024-01-04 10:03:48 0 收藏

Flink Watermark和时间语义

当事件流流进 Partition 时会判断新事件流的WM是否大于当前的Partition WM，当大于时就更新 Partition 的时间戳WM为新流入的WM（取最大值），如下1->2象限Partition WM的变化。同时，如下 Task 也维护了一个全局的 WM 表示事件时钟，该值取分区中最小的

overfit同步小助手 2024-01-04 09:03:11 0 收藏

Spark编程实验二：RDD编程初级实践

Hadoop、Hive安装

学校安全：这个门禁监控技术，速来码住！

三台CentOS7.6虚拟机搭建Hadoop完全分布式集群（一）

Flink 的时间属性及原理解析

Flink 内容分享(十八)：基于Flink＋Iceberg构建企业数据湖实战

基于 Flink SQL 和 Paimon 构建流式湖仓新方案

大数据毕业设计选题推荐-旅游景点游客数据分析-Hadoop-Spark-Hive