大数据 - overfit.cn

大数据-163 Apache Kylin 全量增量Cube的构建手动触发合并 JDBC 操作 Scala

要将数据以可视化方式展示出来，需要使用Kylin的JDBC方式连接执行SQL，获取Kylin的执行结果使用Kylin的JDBC与JDBC操作MySQL一致。选择要合并的 Cube 和 Segments：进入 Kylin Web UI，选择你要操作的 Cube，进入该 Cube 的详情页面。在“Se

overfit同步小助手 2024-10-14 12:03:32 0 收藏

大数据-164 Apache Kylin Cube优化案例1 定义衍生维度与对比超详细

上节我们完成了如下的内容：Cuboid 特指 Kylin 中在某一种维度组合下所计算的所有数据，以减少Cuboid数量为目的的优化统称为Cuboid剪枝。在没有采取任何优化措施的情况下，Kylin会对每一种维度的组合进行预计算。Cube的剪枝优化是一种试图减少额外空间占用的方法，这种方法的前提是不会

overfit同步小助手 2024-10-14 11:06:34 0 收藏

【毕业设计】2025年大数据专业毕业设计选题指南精选推荐

大数据专业毕业设计选题合集涵盖了管理系统、小程序、深度学习、机器学习、算法、人工智能、大数据、网络安全、嵌入式、推荐系统、目标检测等多个热门领域。对于计算机专业、软件工程专业、人工智能专业、通信工程专业的毕业生而言，选择一个合适的毕业设计选题至关重要。在这个毕业设计选题合集中，我们精心收集了各种有趣

overfit同步小助手 2024-10-14 11:03:15 0 收藏

[实时计算flink]应用场景

本文将以部门场景和技术领域场景为例，为您介绍实时计算Flink版的大数据是实时化场景。作为流式计算引擎，Flink可以广泛应用于实时数据处理领域，例如ECS在线服务日志，IoT场景下传感器数据等。同时Flink还能订阅云上数据库RDS、PolarDB等关系型数据库中Binlog的更新，并利用Data

overfit同步小助手 2024-10-14 08:04:31 0 收藏

Hadoop3.4.0 完全分布式集群运行环境搭建 VMware Workstation 虚拟机大数据系列一

Hadoop3.4.0 完全分布式集群运行环境搭建 VMware Workstation 虚拟机

overfit同步小助手 2024-10-14 06:03:50 0 收藏

大数据新视界 --大数据大厂之大数据如何重塑金融风险管理：精准预测与防控

本文探讨大数据在金融风险管理中的重要性、应用场景、技术实现及案例分析，展示其精准预测与防控风险的能力。

overfit同步小助手 2024-10-14 04:03:17 0 收藏

大数据毕业设计选题推荐-NBA球员数据分析系统-Python数据可视化-Hive-Hadoop-Spark

NBA作为全球最具影响力的职业篮球联盟，其数据分析在近年来受到越来越多的关注。据统计，2022-2023赛季NBA常规赛共产生1230场比赛，涉及30支球队和数百名球员，每场比赛平均产生超过400个数据点。这些海量数据涵盖了得分、篮板、助攻等常规统计，以及进阶数据如真实命中率、使用率等。NBA官方数

overfit同步小助手 2024-10-13 22:03:53 0 收藏

大数据技术之 Hadoop（入门详解）

各个模块分开启动/停止（配置 ssh 是前提）常用整体启动/停止 HDFS整体启动/停止 YARN各个服务组件逐一启动/停止分别启动/停止 HDFS 组件启动/停止 YARN。

overfit同步小助手 2024-10-13 22:03:48 0 收藏

通过 Flink 的火焰图定位反压

在 Apache Flink 中，Web UI 提供了丰富的监控工具来帮助用户分析和解决作业性能问题，其中火焰图（Flame Graph）是用于分析反压问题的一个强有力的工具。通过 Flink 的火焰图，你可以清晰地了解作业中各个算子的 CPU 时间分布，进而发现处理速度慢的地方。火焰图不仅能够帮助

overfit同步小助手 2024-10-13 19:03:40 0 收藏

Flink源码剖析

执行环境 ExecutionEnvironment数据抽象 DataSet DataStream逻辑操作 Source Transformation Sink1. 获取执行环境2. 通过执行环境对象，注册数据源Source，得到数据抽象3. 调用数据抽象的各种Transformation执行逻辑计算

overfit同步小助手 2024-10-13 12:03:48 0 收藏

NiFi安装指南

通过以上步骤，你应该能够在你的系统上成功安装并运行 Apache NiFi。NiFi 提供了强大的数据处理和分发功能，适用于各种数据流处理场景。希望这篇博客对你有所帮助！

overfit同步小助手 2024-10-13 11:03:48 0 收藏

Apache Iceberg 与 Spark整合-使用教程（Iceberg 官方文档解析）

spark & iceberg

overfit同步小助手 2024-10-13 11:03:37 0 收藏

基于大数据的电商平台电脑销售数据分析系统

本项目利用网络爬虫技术从京东电商平台采集各类品牌笔记本电脑的价格、销量、评论等数据，经过数据清洗后存入数据库，并实现电脑销售、市场占有率、价格区间等多维度的可视化统计分析，并基于多属性的特产的个性化推荐。系统采用 Flask 框架构建后端分析服务，前端采用 Bootstrap + Echarts

overfit同步小助手 2024-10-13 09:03:55 0 收藏

大数据利器Hadoop：从基础到实战，一篇文章掌握大数据处理精髓！

在当今大数据时代，数据量的爆炸式增长对企业和技术提出了前所未有的挑战。如何高效地存储、处理和分析这些庞大的数据集，成为了亟待解决的问题。Hadoop作为一种分布式计算框架，应运而生，为大数据处理提供了有效的解决方案。Hadoop是一个由Apache软件基金会维护的开源项目，它基于Google的分布式

overfit同步小助手 2024-10-13 06:03:37 0 收藏

【实时数据处理】使用Flink进行实时数据处理

Apache Flink 是一个开源的流处理框架，支持高吞吐量和低延迟的实时数据处理，同时也支持批处理数据。事件时间处理：支持基于事件时间的处理，提供精准的时间语义。高吞吐量和低延迟：优化的执行引擎能够处理大规模数据流，并提供低延迟的结果。状态管理：提供强大的状态管理机制，支持有状态的流处理应用。容

overfit同步小助手 2024-10-13 03:03:43 0 收藏

hbase之布隆过滤器

在HBase中，布隆过滤器用于减少查询时间，通过减少不必要的块加载提高集群吞吐率。布隆过滤器就是这样一个高度节省空间的结构，并且其时间也远超一般算法，但是布隆过滤器存在一定的失误率，例如在网页URL黑名单过滤中，布隆过滤器绝不会将黑名单中网页查错，但是有可能将正常的网页URL判定为黑名单当中的，它的

overfit同步小助手 2024-10-13 01:04:51 0 收藏

【ACM出版】2024年第四届人工智能与大数据国际学术研讨会 (AIBDF 2024)

overfit同步小助手 2024-10-13 01:04:01 0 收藏

Flink 水位线(Watermark)个人总结

在Flink中，用于衡量事件时间进展的标记，被称为水位线。可以看作一条特殊的数据记录，它是插入到数据流中的一个标记点。主要内容就是一个时间戳，用来指示当前的事件时间自身理解：本质上就是一个时间戳，表示比这个时间早的事件已经全部到达。并且在数据乱序的情况下，通过水位线可以判断出迟到的数据。

overfit同步小助手 2024-10-13 00:03:37 0 收藏

基于大数据爬虫+数据可视化与大数据分析的网络电视剧收视率分析系统设计与实现（附源码+论文+部署指南）

基于Hive的网络电视剧收视率分析系统是一个高效、精确的数据管理与分析平台，旨在为电视传媒机构和观众提供一个全面的收视率数据解决方案。通过利用Hive的大数据处理能力，该系统能够存储和分析海量的收视数据，从而揭示不同电视剧的受欢迎程度和观众偏好。管理员可以通过系统管理模块轻松地更新用户信息、发布公告

overfit同步小助手 2024-10-12 19:03:33 0 收藏

Spark-RDD（Resilient Distributed Dataset）图文详解

Spark-RDD概述

overfit同步小助手 2024-10-12 18:03:34 0 收藏