大数据 - overfit.cn

大数据技术之Hadoop-分布式文件系统

配置HDFS。

overfit同步小助手 2024-07-04 11:03:38 0 收藏

【大数据实训日记】Day12 超市电商数据分析(读取、清洗数据及数据分析)

由于上述透视表的人数和远远小于总的记录数，说明超市对保持老客户较为有效，也间接说明了超市的运营状况较为稳定；还可以发现，2011-2014年每年的新增客户数呈逐年减少的趋势，新客户获取率比较低，因此，可以进行主动推广营销，从而增加新客户数；由上面可知，各类型的消费者的销售额在逐步上升，其中以普通消

overfit同步小助手 2024-07-04 07:03:52 0 收藏

大数据开发之Hive（统计影音视频网站的常规指标）

1、视频表2、用户表。

overfit同步小助手 2024-07-04 05:03:42 0 收藏

八股文系列Spark

两者并没有大的差别。都是将 mapper（Spark 里是 ShuffleMapTask）的输出进行 partition，不同的 partition 送到不同的 reducer（Spark 里 reducer 可能是下一个 stage 里的 ShuffleMapTask，也可能是 ResultTas

overfit同步小助手 2024-07-04 03:03:53 0 收藏

【大数据复习】第5章 NoSQL（not only SQL）（重点）

C. 分区容忍性: 是指当出现网络分区的情况时(即系统中的一部分节点无法和其他节点进行通信),分离的系统也能够正常运行,也就是说,系统中任意信息的丢失或失败不会影响系统的继续运作。A. 一致性: 是指任何一个读操作总是能够读到之前完成的写操作的结果,也就是在分布式环境中,多点的数据是一致的,或者说,

overfit同步小助手 2024-07-03 21:02:21 0 收藏

【图解大数据技术】Hadoop、HDFS、MapReduce、Yarn

MapReduce是一个分布式离线计算框架，专门用于处理大数据场景中与实时性无关的一些离线计算任务。MapReduce的数据输入一般是HDFS，然后经过InputFormat进行输入格式化，变成格式；然后执行用户实现的Mapper类型的map方法，进行数据映射，映射处理的结果也是格式；然后执行一个s

overfit同步小助手 2024-07-03 19:03:18 0 收藏

【HBase入门与实战】一文搞懂HBase!_hbase入门与实践

定义是一个面向列存储的NoSQL数据库是一个分布式HashMap，底层数据是Key-Value格式使用HDFS作为存储并利用其可靠性什么是【分布式HashMap】？HashMap的本质是用一个简单的值形式映射一个复杂的值形式。HBase通过一个RowKey提取该RowKey下多个列族下多个列的多个值

overfit同步小助手 2024-07-03 18:03:48 0 收藏

基于大数据+爬虫颈椎病预防交流与数据可视化分析平台设计和实现(源码+LW+部署讲解)

程序上交给用户进行使用时，需要提供程序的操作流程图，这样便于用户容易理解程序的具体工作步骤，现如今程序的操作流程都有一个大致的标准，即先通过登录页面提交登录数据，通过程序验证正确之后，用户才能在程序功能操作区页面操作对应的功能。程序操作流程图首先前端通过Vue和axios发送HTTP请求到后端的登

overfit同步小助手 2024-07-03 18:03:45 0 收藏

基于hadoop豆瓣电影数据分析

代码:load data local inpath "/home/liuxuanting/douban_movie-1686527723744.txt" into table lxt_2021900406；代码：hdfs dfs -copyFromLocal /home/liuxuanting/li

overfit同步小助手 2024-07-03 11:03:29 0 收藏

spark期末整理复习

DataFrame可以看作是分布式的Row对象的集合，在二维表数据集的每一列都带有名称和类型，这就是Schema元信息，这使得Spark框架可获取更多数据结构信息，从而对在DataFrame背后的数据源以及作用于DataFrame之上数据变换进行针对性的优化，最终达到提升计算效率。

overfit同步小助手 2024-07-03 10:03:51 0 收藏

【git 将当前仓库和远程仓库合并，并且远程仓库替代本地的修改】

请确保在执行这些命令之前，你已经理解了操作的含义，并且你对本地和远程仓库的状态有清晰的认识。当你尝试合并两个分支时，发现两个分支上的同一个文件有不同的修改，Git 无法自动解决这种冲突。需要注意的是，合并不相关历史的行为可能会导致一些潜在的问题和混乱，因此在执行这样的操作时，请确保你清楚了解你的操作

overfit同步小助手 2024-07-03 09:03:57 0 收藏

Flink-时间语义

1 在eventTime事件时间中，Flink接收事件的数据不是严格按照事件时间进行排序，会出现乱序，需要watermark进行处理乱序的一种机制2 一旦出现乱序，如果只根据eventTime决定window的运行，我们不能明确数据是否全部到位，但又不能无限期的等下去，此时必须要有个机制来保证一个特

overfit同步小助手 2024-07-03 09:03:22 0 收藏

Hadoop 3.3.6 + Tez 0.10.3 + Hive 4.0.0 安装指南

根据 Hive 官方发布说明，Hive 4.0.0 兼容 Hadoop 3.3.6 和 Tez 0.10.3，尝试搭建了一套单节点的环境用于学习。

overfit同步小助手 2024-07-03 09:03:19 0 收藏

spark方法总结

RDD：是一个容错的、只读的、可进行并行操作的数据结构，是一个分布在集群各个节点中的存放元素的集合。RDD的创建有3种不同的方法。第一种是将程序中已存在的Seq集合（如集合、列表、数组）转换成RDD。第二种是对已有RDD进行转换得到新的RDD，这两种方法都是通过内存中已有的集合创建RDD的。第三种是

overfit同步小助手 2024-07-03 08:03:38 0 收藏

一文了解Spark引擎的优势及应用场景

而对数据计算复杂（有推荐、分类、聚类算法场景）且时延要求高的场景，如迭代计算, 交互式计算, 流计算、有机器学习算法需求，图计算需求，且成本投入可以接受的情况下使用Spark SQL,Spark SQL读取的数据都是存入到内存中，因此对机器的内存有要求，且要求内存较大, 相对较贵.总结一下，hive

overfit同步小助手 2024-07-03 08:03:22 0 收藏

新闻聚类和新闻分类hadoop+spark（燕山大学大数据三级项目）

由于上传到csdn结构比较混乱，可以进我的主页查看相应的资源，可以下载【免费】新闻聚类+新闻分类（hadoop+spark+scala）资源-CSDN文库AbstractThis project aims at using Bayesian classification algorithm and

overfit同步小助手 2024-07-03 07:03:51 0 收藏

spark sql 的join调优

spark sql的join调优

overfit同步小助手 2024-07-03 06:03:50 0 收藏

大数据实验四MapReduce初级编程实践----代码

现在有多个输入文件，每个文件中的每行内容均为一个整数。要求读取所有文件中的整数，进行升序排序后，输出到一个新的文件中，输出的数据格式为每行两个整数，第一个数字为第二个整数的排序位次，第二个整数为原待排列的整数。下面是输入文件和输出文件的一个样例供参考。对于两个输入文件，即文件A和文件B，编写MapR

overfit同步小助手 2024-07-03 05:03:24 0 收藏

虚拟机配置（hadoop）前置准备

安装集群化软件，需要有多台Linux服务器（至少三台）。1.首先创建一台CentOS7系统的Linux虚拟机，作为基础虚拟机2.在VMware中新建文件夹，命名为：hadoop集群3.克隆三台虚拟机并且命名为hadoop1、hadoop2、hadoop3、内存分别设置为4GB,2GB,2GB.

overfit同步小助手 2024-07-03 01:03:43 0 收藏

创新案例｜昆曲DTC创新，用大数据和社群营销重塑传统演出商业模式

今天，我们正处在科技与人文的十字路口，“跨界”已然成为我们创新的关键变量。如何把艺术与商业结合，将商业的元素渗透到艺术的肌体里面，使艺术通过商业的手段恢复活力，构造出一种新型的商业模式，这是艺术界、学术界和商业界共同关注的话题？

overfit同步小助手 2024-07-02 21:03:46 0 收藏