大数据 - overfit.cn

奇瑞员工控诉强制加班，加班费最多10元；高德数据被不正当抓取，一审判赔1250万元；知乎入局AI搜索；苹果手机出货量激增

被告公司未经许可，利用变换 IP 地址和伪造浏览器标识等不正当手段抓取‘拥堵延时指数’数据，并将抓取的数据存储在某金融终端软件中，以商业目的向付费用户传播，违背了数据领域中公认的商业道德和诚实信用原则，损害了原告公司的合法权益及消费者利益，破坏了数据领域中的市场竞争秩序，构成不正当竞争。涉事火箭是天

overfit同步小助手 2024-07-28 08:01:35 0 收藏

Hadoop课设蔬菜统计--超详细流程

蔬菜统计根据“蔬菜.txt”的数据，利用Hadoop平台，实现价格统计与可视化显示。要求：通过MapReduce分析列表中的蔬菜数据。（1）统计各地区每一天大白菜、土豆的价格（柱状图）（2）选取一个城市，统计各个蔬菜价格变化曲线（折线图）（3）统计每种蔬菜价格最高的地区和日期（柱状图）（4）加载H

overfit同步小助手 2024-07-28 06:03:40 0 收藏

基于DIKW框架下搜索技术在大数据审计中的应用研究

随着国内信息化进程的不断加快，审计作业环境已经发生了巨大变化，如何开展好大数据审计工作是每个审计组织都亟待研究的课题。当前，大数据审计面临需要采集哪些数据和如何开展数据分析两大关键性问题，为进一步推动大数据审计工作走深走实，本文从DIKW框架的角度出发阐述其在大数据审计中的应用，并基于DIKW框架探

overfit同步小助手 2024-07-28 05:03:17 0 收藏

文件安全传输系统，如何保障信创环境下数据的安全传输？

FTP（文件传输协议）是一种广泛使用的网络协议，用于在网络上的服务器和客户端之间传输文件。随着时间的推移和技术的发展，呈现出一些局限性和缺点

overfit同步小助手 2024-07-28 00:06:51 0 收藏

Spark提交任务参数全面解析

overfit同步小助手 2024-07-27 19:03:32 0 收藏

Elasticsearch开启认证|为ES设置账号密码|ES账号密码设置|ES单机开启认证|ES集群开启认证

ES安装完成并运行，默认情况下是允许任何用户访问的，这样并不安全，可以为ES开启认证，设置账号密码。下面介绍ES单节点开启认证以及ES集群开启认证的操作过程。注意：Elasticsearch 8.11.4 不需要手动开启认证，安装时候会自动引导开启，下面介绍的是 Elasticsearch 7.17

overfit同步小助手 2024-07-27 17:06:23 0 收藏

Flink源码学习资料

由于源码分析系列文档较多，本人绘制了Flink文档脑图。和下面的文档目录对应。各位读者可以选择自己感兴趣的模块阅读并参与讨论。此脑图不定期更新中……

overfit同步小助手 2024-07-27 17:03:29 0 收藏

大数据面试题之Spark(1)

overfit同步小助手 2024-07-27 16:03:51 0 收藏

Apache-Flink未授权访问高危漏洞修复

由于flink没有鉴权的设置，使用使用 htpasswd 工具+服务器系统防火墙设置，才能禁用默认对外访问的8081端口，使用用户名+密码实现安全验证登录flink web ui。

overfit同步小助手 2024-07-27 14:03:42 0 收藏

大数据技术之Scala语言，只需一篇文章即可，教你学会什么是Scala，教你如何使用Scala

Scala的集合有三大类：序列Seq，集Set，映射Map，所有的集合都扩展自Iterable特质。对于几乎所有的集合类，Scala都同时提供了可变和不可变版本，可变集合可以在适当的地方被更新或扩展。这意味着你可以修改，添加，移除一个集合的元素。而不可变集合类，相比之下，永远不会改变。不过，你仍然可

overfit同步小助手 2024-07-27 13:02:28 0 收藏

spark如何搭建本地模式

1、获取spark和Hadoop、scala的对应安装包，注意版本间一定要匹配，否则无法使用使用，本次学习使用的事scala2.12.11、hadoop3.0.0、spark-3.0.0-bin-hadoop3.2。3、跟着【spark本地安装辅助教程】安装，注意教程的内容不是全部适用、hadoop

overfit同步小助手 2024-07-27 12:03:17 0 收藏

设置zookeeper的clientPortAddress参数

同时，这样的配置是必要的，如果你需要从网络架构上限制ZooKeeper监听的网络接口，例如在某些接口是面向公网，而ZooKeeper应该只在内网工作的情况下。在有一个由3台服务器组成的ZooKeeper集群的情况下，每台服务器的clientPortAddress应该设置为对应服务器的IP地址。这样的

overfit同步小助手 2024-07-27 10:03:37 0 收藏

Spark---核心概念（Spark,RDD,Spark的核心构成组件）详解

Spark就是一个集成离线计算，实时计算，SQL查询，机器学习，图计算为一体的通用的计算框架。何为RDD？其实RDD就是一个不可变的scala的并行集合。Spark的核心概念就是RDD，指的是一个不可变、可分区、里面元素可并行计算的集合，这个数据的全部或者部分可以缓存在内存中，在多次计算间被重用。

overfit同步小助手 2024-07-27 09:03:12 0 收藏

Hadoop 面试题（十一）

1. 简述Hadoop-2.6.5 集群中，HDFS 默认副本块（含原数据块）的个数是？2. Google三驾马车是Hadoop等分布式系统的基石，其中论文()不属于三驾马车之一？3. 简述关于安全模式命令，正确的是？4. 简述以下不属于Hadoop中NameNode的功能点的选项是？5.

overfit同步小助手 2024-07-27 06:03:56 0 收藏

大数据HDFS概述【长期更新】

Hadoop基本介绍和设计原理

overfit同步小助手 2024-07-27 06:03:50 0 收藏

【超详细保姆级教程·Mac M1使用UTM虚拟机安装银河麒麟Kylin】

因为Mac系列的M1芯片安装的VMware虚拟机在安装Kylin时，总是黑屏，所以试了其他的虚拟机，但是都不太成功，最后在UTM虚拟机上安装成功，记录一下安装过程。

overfit同步小助手 2024-07-27 03:05:19 0 收藏

解锁AI的神秘力量：LangChain4j带你步入智能化实践之门

在探索LangChain4j的旅程中，我们不仅揭开了AI实践的神秘面纱，还发现了如何将这些强大的技术应用到实际业务中。随着智能化时代的大门缓缓开启，让我们携手LangChain4j，共同迈向一个更智能、更高效的未来。

overfit同步小助手 2024-07-27 02:01:17 0 收藏

【大数据·hadoop】在hdfs上运行shell基本常用命令

在Hadoop生态系统中，supergroup 是一个默认的用户组，通常与HDFS的超级用户（即 Hadoop 的管理员账户，类似于 Unix 系统中的 root 用户）关联。超级用户和属于 supergroup 组的用户通常有着对HDFS上所有文件和目录的全权限，这包括读取、写入和执行权限。

overfit同步小助手 2024-07-26 20:03:40 0 收藏

大数据面试题之Spark(7)

overfit同步小助手 2024-07-26 19:03:34 0 收藏

hadoop 单节点模式安装

http://localhost:9870/，或http://127.0.0.1:9870/，或http://192.168.1.253:9870/;链接地址为：https://www.oracle.com/java/technologies/downloads/

overfit同步小助手 2024-07-26 17:03:41 0 收藏