大数据 - overfit.cn

探索数据，洞见未来——第二届大数据与数据挖掘国际会议（BDDM 2024）诚邀参会投稿！

第二届大数据与数据挖掘国际会议（BDDM 2024）将于2024年12月13日-12月15日在中国武汉召开。

overfit同步小助手 2024-11-25 17:03:42 0 收藏

【大数据学习 | HBASE高级】hive操作hbase

一般在查询hbase的数据的时候我们可以直接使用hbase的命令行或者是api进行查询就行了，但是在日常的计算过程中我们一般都不是为了查询，都是在查询的基础上进行二次计算，所以使用hbase的命令是没有办法进行数据计算的，并且对于hbase的压力也会增加很多，，这个代码上面我们已经实现过了，但是后续

overfit同步小助手 2024-11-25 16:03:51 0 收藏

数据仓库面试题集&离线&实时

1、2、Flink提交方式，使用pre-job还是yarn-session模式，好处？

overfit同步小助手 2024-11-25 15:03:41 0 收藏

毕业设计项目基于大数据的K-means广告效果分析

毕业设计基于大数据的K-means广告效果分析。

overfit同步小助手 2024-11-25 15:03:35 0 收藏

大数据-229 离线数仓 - ODS层的构建 Hive处理 JSON 数据处理结构化

ODS是一种面向操作层的数据存储，专注于支持企业的日常运营。它通常整合了来自不同数据源（如ERP、CRM、销售系统等）的数据，通过清洗、转换后存储，以便快速查询和使用。ODS不以历史数据分析为主要目的，而是以操作和事务处理为核心。

overfit同步小助手 2024-11-25 15:03:30 0 收藏

【源码+文档+调试讲解】基于Hadoop实现的豆瓣电子图书推荐系统的设计与实现

随着开数字化阅读的普及，豆瓣电子图书推荐系统应运而生，旨在为用户提供个性化的阅读体验。基于Hadoop的强大数据处理能力，该系统能够有效处理海量用户数据和书籍信息，通过复杂的算法模型为用户推荐高质量的内容。管理员功能涵盖用户管理、豆瓣高分管理等，确保了平台的高效运营。用户个人中心则提供修改密码、我的

overfit同步小助手 2024-11-25 14:03:54 0 收藏

AI的三大支柱：神经网络、大数据与GPU计算的崛起之路

她在斯坦福大学的头几年，尽管遭遇了项目初期的冷淡反响，但通过ImageNet挑战赛吸引了广泛关注。该团队由李飞飞教授领导，他们的目标并不是改进神经网络，事实上，他们几乎没有考虑神经网络，而是致力于创建一个远大于以往的图像数据集：1400万张图像，每张都标注了约2.2万个类别之一。尽管有负面反馈，李飞

overfit同步小助手 2024-11-25 10:03:47 0 收藏

大数据新视界 -- Hive 查询性能优化：基于成本模型的奥秘（上）（5/ 30）

本文承接 Hive 数据导入系列篇章，深度剖析 Hive 查询性能优化之成本模型，详析成本要素与统计信息，细究查询执行计划及优化策略，精探优化器特性与配置，辅以案例、代码、测试数据及动态切换示例，设互动并预告索引技术篇章。

overfit同步小助手 2024-11-25 09:03:22 0 收藏

Hadoop3.x单机模式Local(Standalone)模式

hadoop-env.sh、core-site.xml、hdfs-site.xml、workers(DataNode节点配置文件)、mapred-site.xml、yarn-site.xml。--SecondaryNameNode的HTTP服务地址-->--指定mapreduce使用yarn资源管理

overfit同步小助手 2024-11-25 07:03:58 0 收藏

毕业设计：基于python商品数据采集分析可视化系统淘宝数据采集大数据大屏可视化（附源码+论文）

技术栈：Python语言、Flask框架、Selenium爬虫、机器学习、多元线性回归预测模型、LayUI框架、Echarts可视化大屏、淘宝数据采集。

overfit同步小助手 2024-11-25 03:04:14 0 收藏

Spark之RDD,常用的分析算子大全分组聚合,排序,重分区,连接合并等算子

overfit同步小助手 2024-11-25 00:03:16 0 收藏

大数据新视界 -- Impala 性能优化：量子计算启发下的数据加密与性能平衡（下）（30 / 30）

本文聚焦于[Impala](https://blog.csdn.net/atgfg/category_12809599.html)性能优化中量子计算对数据加密与性能平衡的作用。阐述量子计算原理，详细解析量子密钥分发在 Impala 数据加密的应用并对比传统方式，提出多维度加密策略与硬件加速方案，以社

overfit同步小助手 2024-11-24 22:03:35 0 收藏

大数据概述

服务器应用过程中，硬件中的资源进行存储与计算时通常得不到充分的利用，面对应用的巨量数据的服务器集群来讲，相对而言，浪费的资源较大，也不便于集群的管理。它是一种弱化的结构化数据形式，具有一定的结构性，但并不符合结构化数据的严格模式，仍有明确的数据大纲，包含相关的标记，用来分割实体以及实体的属性，如XM

overfit同步小助手 2024-11-24 20:07:10 0 收藏

Kafka-生产者源码分析

从前面的博客，我们已经了解了Kafka的设计思想、常用命令、参数配置、示例代码。下面我们从源码的角度来看下Kafka的生产者的内部细节。源码下载链接：https://downloads.apache.org/kafka/3.8.0/kafka-3.8.0-src.tgzproducer是一个将记录推

overfit同步小助手 2024-11-24 18:03:49 0 收藏

毕设项目基于大数据的b站数据分析

本文主要运用Python的第三方库SnowNLP对弹幕内容进行情感分析，使用方法很简单，计算出的情感score表示语义积极的概率，越接近0情感表现越消极，越接近1情感表现越积极。从数据可视化中可以看到，播放量排名前三的分别是生活类、动画类、鬼畜类，让人诧异的是以动漫起家的B站，播放量最多的视频分类竟

overfit同步小助手 2024-11-24 15:03:43 0 收藏

大数据新视界 -- Impala 性能突破：处理特殊数据的高级技巧（下）（26 / 30）

本文围绕 Impala 处理特殊数据，阐述稀疏、高精度数据的挑战与对性能影响，介绍其处理技巧、金融和航空等案例，及存储计算平衡、数据一致性兼容性挑战与应对。

overfit同步小助手 2024-11-24 14:03:20 0 收藏

大数据新视界 -- 大数据大厂之 Hive 数据导入：多源数据集成的策略与实战（上）（3/ 30）

本文深度探究 Hive 数据导入，详述多种导入方式与数据格式适配，细析多源集成策略（含整合模式、清洗转换），佐以影视娱乐与电商行业实例、丰富代码及深度分析，为多源数据入 Hive 提供详尽指引并设互动环节，同时预告后续篇章。

overfit同步小助手 2024-11-24 12:03:26 0 收藏

大数据-228 离线数仓 - Flume 自定义拦截器(续接上节) 编写代码日志采集小结

在 Apache Flume 中，拦截器（Interceptor）是数据流管道的一个关键组件，它允许在事件（Event）进入 Flume Channel 之前对其进行修改或过滤。通过自定义拦截器，你可以实现特定的业务逻辑，如数据过滤、字段添加或修改、格式转换等。自定义拦截器是指用户根据需求自行编写

overfit同步小助手 2024-11-24 08:03:37 0 收藏

大数据-227 离线数仓 - Flume 自定义拦截器(续接上节) 采集启动日志和事件日志

（续接上节，上节已经到了打包的部分）# 配置文件滚动方式（文件大小32M）# 向hdfs上刷新的event的个数# 使用本地时间内容的截图如下所示：给source增加自定义拦截器去掉时间戳 a1.sinks.k1.hdfs.useLocalTimeStamp = true根据header中的logt

overfit同步小助手 2024-11-24 02:03:22 0 收藏

Spark中的DataFrame和DataSet有什么区别？

DataFrame：适用于需要快速编写和维护的数据处理任务，适合初学者或对类型安全要求不高的场景。DataSet：适用于需要类型安全和复杂数据处理任务，适合需要严格类型检查的场景。在实际应用中，可以根据具体需求选择使用 DataFrame 或 DataSet。大多数情况下，DataFrame 和 D

overfit同步小助手 2024-11-23 22:03:56 0 收藏