大数据 - overfit.cn

大数据-11-案例演习-淘宝双11数据分析与预测（期末问题）

Hadoop 是一个开源的分布式计算框架，设计用于在大规模数据集上实现高效、可靠和可扩展的数据处理。HDFS是 Hadoop 项目的一个核心组件，它是一个针对大数据处理而设计的分布式文件系统。YARN 是一个通用的、可伸缩的资源管理平台，它允许在同一个集群上运行多种不同类型的应用程序。都是帮助处理和

overfit同步小助手 2024-06-14 20:03:21 0 收藏

spark-hive连接操作流程、踩坑及解决方法

hive安装；spark-hive兼容版本编译；spark-sql操作hive表格

overfit同步小助手 2024-06-14 18:03:37 0 收藏

Flink存储机制及核心原理分析

胡弦，视频号2023年度优秀创作者，互联网大厂P8技术专家，Spring Cloud Alibaba微服务架构实战派(上下册)和RocketMQ消息中间件实战派(上下册)的作者，资深架构师，技术负责人，极客时间训练营讲师，四维口袋KVP最具价值技术专家，技术领域专家团成员，2021电子工业出版社年度

overfit同步小助手 2024-06-14 14:03:50 0 收藏

【大数据】Spark使用大全:下载安装、RDD操作、JAVA编程、SQL

一文详解Spark的使用

overfit同步小助手 2024-06-14 14:03:23 0 收藏

十二、哪些情况下不需要采取三大数据出境制度即可出境数据？

在此过程中，境外消费者的订单信息是由国内电商平台的境外站收集后入境的，用户账号也由该平台国际站负责运营管理，境外消费者的个人信息收集活动不发生在境内，且入境后的处理过程未引入境内消费者的个人信息，经过平台确认交易订单信息后发送给境外的物流公司和航空公司进行运输配送。但类似于场景（五），“跨境运输”的

overfit同步小助手 2024-06-14 11:03:59 0 收藏

【Hadoop伪集群安装——生产实习Day1】

（12）修改 start-yarn.sh文件（在hadoop-3.2.0/sbin目录下），在文件前面增加如下内容。（13）修改stop-yarn.sh 文件（在hadoop-3.2.0/sbin目录下），在文件前面增加如下内容。（10）修改start-dfs.sh文件（在hadoop-3.2.0/

overfit同步小助手 2024-06-14 11:03:39 0 收藏

大数据：淘宝用户行为分析完整报告（图片拿完整文件）

比如在运用MR处理数据的时候，由于自身机器的原因，本地开发的时候发生了出现了很多bug，但最终在小组成员的相互合作的情况下还有老师的帮助下，终于解决了bug。所以今后学习的时候，遇到报错不要慌，认真看报错的源头，善于发现错误，才会进步，在学习中要多做思维导图来有效的巩固知识点，把学过的东西有效的串联

overfit同步小助手 2024-06-14 05:03:54 0 收藏

【大数据】Hadoop集群搭建（8249字）

overfit同步小助手 2024-06-14 04:03:44 0 收藏

币安用户达2亿，代币BNB创新高，赵长鹏成“美国最富囚犯” & 苹果迈向AI新纪元：芯片、应用与大模型三线作战

在币安联合创始人赵长鹏入狱服刑的第一个月，币安代币BNB创下了历史新高，使得赵长鹏成为美国联邦监狱中史上“最富囚犯”。与此同时，币安用户数量也到达2亿“里程碑”。根据CoinGecko的数据，BNB的价格在周四达到了717.48美元的峰值，总市值上升至1090亿美元。自年初以来，该代币的价格已翻倍。

overfit同步小助手 2024-06-14 04:01:24 0 收藏

大数据----虚拟机自定义安装和配置jdk

安装工具：VMwareWorkstation，MobaXterm下载链接：链接：https://pan.baidu.com/s/1N5m7v8M3JyfCSWRphj2OwA?pwd=wf06提取码：wf06。

overfit同步小助手 2024-06-14 02:03:49 0 收藏

AutoDev 1.8 融合 DevOps 规范和实践，构建演进式 AI 辅助编码

在新版本的 AutoDev 中，我们又融入了一系列软件开发的实践，以更好地辅助开发人员的日常工作。这些新的特性，融合了我们对于 AI 辅助编码的新理解。诸如于：重构：AI 重命名、坏味道重构、重构建议。提交信息优化：结合用户输入的，提交信息生成CLI 生成：结合用户输入的，生成 CLI 命令还要最重

overfit同步小助手 2024-06-14 00:01:20 0 收藏

Spark 检查点（checkpoint）

Checkpointing可以将RDD从其依赖关系中抽出来，保存到可靠的存储系统（例如HDFS，S3等)，即它可以将数据和元数据保存到检查指向目录中。因此，在程序发生崩溃的时候，Spark可以恢复此数据，并从停止的任何地方开始。开发人员可以是来方法来设置检查点。在使用检查点之前，必须使用方法设置检

overfit同步小助手 2024-06-13 22:03:55 0 收藏

Hadoop+Spark大数据技术实验8 Spark SQL结构化

示例: gradedf.selectExpr("name", "name as names" ,"upper(Name)","Scala * 10").show(3)- 示例: gradedf.select("Name", "Class","Scala").show(3,false)修改名称：gra

overfit同步小助手 2024-06-13 20:03:37 0 收藏

Git config 使用说明

其实很简单就下面这张图，含概了Android所有需要学的知识点，一共8大板块：架构师筑基必备技能Android框架体系架构（高级UI+FrameWork源码）360°Androidapp全方位性能调优设计思想解读开源框架NDK模块开发移动架构师专题项目实战环节移动架构师不可不学习微信小程序混合开发的

overfit同步小助手 2024-06-13 19:04:35 0 收藏

hadoop的基础操作

hadoop是一个由基金会所开发的。hadoop的框架最核心的设计就是HDFS和MapReduce，HDFS为海量的数据提供了存储，MapReduce则为海量的数据提供了计算。hadoop具有高容错性，常部署在低廉的硬件上，而且它拥有高吞吐量，可以更好地访问应用程序中的数据，适合有着大数据集的应用程

overfit同步小助手 2024-06-13 17:03:51 0 收藏

安装和配置 HBase

安装和配置 HBase一、安装 HBase　　①（在Linux 系统下的火狐浏览器打开）官网： Index of /dist/hbase (apache.org) 　　② 解压安装包hbase-2.2.2-bin.tar.gz至路径 /usr/local，命令如下：cd ~sudo tar -z

overfit同步小助手 2024-06-13 13:03:45 0 收藏

Elasticsearch：Open Crawler 发布技术预览版

多年来，Elastic 已经经历了几次 Crawler 迭代。最初是，后来发展成为，最近又发展成为。这些 Crawler 功能丰富，允许以稳健而细致的方式将网站数据导入 Elasticsearch。但是，如果用户想在自己的基础设施上运行这些 Crawler，他们也需要运行整个企业搜索。企业搜索代码库

overfit同步小助手 2024-06-13 09:02:09 0 收藏

大数据 | 实验四：并行化数据挖掘算法设计

k近邻法（k-nearest neighbor，k-NN）是一种基本的分类和回归方法，是监督学习方法里的一种常用方法。

overfit同步小助手 2024-06-13 08:03:22 0 收藏

大数据之数据仓库技术：ETL工具和Kettle简介

`ETL` 是实现商务智能(Business Intelligence，BI)的核心。一般情况下，ETL会花费整个BI项目三分之一的时间，因此ETL设计得好坏直接影响BI项目的成败。如果说 `数据仓库` 的模型设计是一座大厦的设计蓝图，数据是砖瓦的话，那么 `ETL` 就是建设大厦的过程。

overfit同步小助手 2024-06-13 07:03:49 0 收藏

Spark数据倾斜定位及解决方案

因为自己编写的代码的bug，以及偶然出现的数据异常，也可能会导致内存溢出。此外，倒数第一列显示了每个task处理的数据量，明显可以看到，运行时间特别短的task只需要处理几百KB的数据即可，而运行时间特别长的task需要处理几千KB的数据，处理的数据量差了10倍。：该方案通常无法彻底解决数据倾斜，因

overfit同步小助手 2024-06-13 06:03:29 0 收藏