大数据 - overfit.cn

centos7虚拟机镜像地址出问题了

yum命令问题处理

overfit同步小助手 2024-09-30 17:03:43 0 收藏

大数据-150 Apache Druid 安装部署单机启动系统架构

Apache Druid 是一个高性能的实时分析数据库，专为快速聚合和查询大规模数据集而设计。它的架构由多个组件组成，每个组件在数据的存储、处理和查询中发挥重要作用。每个段通常包含一段时间内的数据，并被优化以支持快速查询。时间分区: Druid 根据时间将数据分区，以提高查询性能。数据按时间戳索引，

overfit同步小助手 2024-09-30 17:03:38 0 收藏

化工行业B2B系统选型：构建高效、安全的数字化供应链

在化工行业，随着市场竞争的日益激烈和技术的飞速发展，传统的管理模式和供应链体系已难以满足企业日益增长的需求。为了提升运营效率、优化供应链管理、增强市场竞争力，化工企业纷纷寻求数字化转型，而B2B系统作为数字化转型的重要工具，其选型与实施成为化工企业关注的焦点。本文将从化工行业的特点出发，深入探讨B2

overfit同步小助手 2024-09-30 13:07:11 0 收藏

【头歌】ZooKeeper之分布式环境搭建答案

ZooKeeper之分布式环境搭建答案第1关 ZooKeeper之仲裁模式第2关：伪分布式体验及分布式安装配置

overfit同步小助手 2024-09-30 13:03:31 0 收藏

解决HADOOP_HOME and hadoop.home.dir are unset.异常问题

我在Windows环境下运行MapReduce程序时遇到这个异常，其原因是windows下的环境与Linux环境不同，而Hadoop一般基于Linux系统运行，因此需要一系列辅助程序才能运行。下载对应版本号的文件（找不到对应版本建议找最近版本），解压到任意目录下。

overfit同步小助手 2024-09-30 12:03:52 0 收藏

大数据-145 Apache Kudu 架构解读 Master Table 分区读写

在Kudu中，Tablet被细分为更小的单元，叫做RowSets，一些RowSets仅存于内存中，被称为MemRowSets，而另一些则同时使用内存和硬盘，被称为DiskRowSets。因为Master上缓存了集群的元数据，所以Client读写数据的时候，肯定是要通过Master才能获取到Table

overfit同步小助手 2024-09-30 10:02:08 0 收藏

大数据新视界 --大数据大厂之 Druid 实时数据分析平台在大数据中的应用

本文阐述 Druid 实时数据分析平台，涵盖架构、性能优势（如列式存储、索引技术等）、实际案例（物流、游戏、交通等行业）、查询性能优化方法、与 Spark 和 Hive 协同、未来发展展望（性能、集成、用户体验）等内容。

overfit同步小助手 2024-09-30 09:05:33 0 收藏

Hadoop的HA模式搭建

准备三台虚拟机1.修改虚拟机的IP地址和hostname2.配置集群中的ip映射（/etc/hosts）3.关闭虚拟机的防火墙4.集群间实现免密登录每台虚拟机都执行类似操作。

overfit同步小助手 2024-09-30 08:03:20 0 收藏

1688商品API接口：电商数据自动化的新引擎

1688作为中国领先的B2B电子商务平台，为广大商家和制造商提供了一个展示和交易商品的广阔市场。随着1688商品API接口的推出，开发者和商家现在能够通过编程方式自动化获取和管理商品数据，极大地提高了工作效率和数据处理的灵活性。1688商品API接口为商家和开发者提供了一个强大的工具，以支持他们的电

overfit同步小助手 2024-09-30 05:05:11 0 收藏

毕设基于大数据的游数据分析可视化系统(源码分享)

今天学长向大家分享一个毕业设计项目毕业设计基于大数据的游数据分析可视化系统(源码分享)演示效果毕业设计大同旅游数据分析可视化系统🧿 项目分享:见文末!数据可视化是数据处理中的重要部分Django是一个基于Web的应用框架，由python编写。Web开发的基础是B/S架构，它通过前后端配合，将后

overfit同步小助手 2024-09-30 01:03:38 0 收藏

大数据采集汇聚系统研究

大数据采集汇集系统通过集成各种数据源，如数据库、日志文件、传感器、社交媒体等，实现数据的全面收集。系统采用先进的数据处理技术，对收集到的数据进行清洗、去重、格式转换等预处理操作，确保数据的质量和可用性。随后，系统将处理后的数据存储在高性能的存储介质中，以便后续的分析和利用。

overfit同步小助手 2024-09-30 01:03:19 0 收藏

物联网、大数据、云计算、人工智能之间的关系如何？

物联网、大数据、云计算、人工智能之间的关系是紧密相连、相互促进的。这四者既有各自独立的技术特征，又能在不同层面上相互融合，共同推动信息技术的发展和应用。物联网（IoT）物联网是指通过互联网连接和共享数据的物理设备网络。它通过网络连接各种物理设备，使之能够相互通信和交互，具备智能化、数据共享和互通、实

overfit同步小助手 2024-09-30 00:03:27 0 收藏

Hadoop本地运行模式环境搭建

学校Hadoop实验课，课前已经配置好了，最后需要提交实验报告，只能重新配置一遍。

overfit同步小助手 2024-09-29 22:03:42 0 收藏

Flink入门系列(1)：Apache Flink简介

Apache Flink 是一个框架和分布式处理引擎，用于在无边界和有边界数据流上进行有状态的计算。Flink 能在所有常见集群环境中运行，并能以内存速度和任意规模进行计算。

overfit同步小助手 2024-09-29 21:06:15 0 收藏

【计算机毕设-大数据方向】基于大数据的健康美食可视化系统设计与实现

在当今社会，随着人们生活水平的提高以及对健康的重视程度不断加深，如何科学合理地安排饮食成为了越来越多人关注的话题。一方面，快节奏的生活方式使得现代人对于便捷性的需求日益增长；另一方面，人们对于食物的选择不再仅仅满足于基本的饱腹感，而是更加注重食物的营养价值与健康效益。在此背景下，开发一款能够综合考虑

overfit同步小助手 2024-09-29 19:03:45 0 收藏

spark任务优化参数整理

Hadoop_MRSpark_Corespark.executor.memory 默认值1gspark.executor.cores 默认值1核spark.executor.instances 默认值2个spark.yarn.am.memory 默认值512ms

overfit同步小助手 2024-09-29 18:03:23 0 收藏

大数据Flink（一百二十四）：案例实践——淘宝母婴数据加速查询

本场景中订单和婴儿信息存储在MySQL中，对于订单表，为了方便进行分析，我们让它关联上其对应的婴儿信息，构成一张宽表。在这个例子中，我们将创建三张数据表，其中一张orders_dataset_tmp是导入数据的临时表，其他两张作为源表，体验淘宝母婴订单实时查询。导入完成之后，在SQLConsole页

overfit同步小助手 2024-09-29 16:03:33 0 收藏

【git】切换到远程其他分支

切换到远程其他分支

overfit同步小助手 2024-09-29 15:05:01 0 收藏

2025年最新大数据毕业设计选题-基于Spark分析相关

回忆学过的知识(Python、Java、Hadoop、Hive、Sqoop、Spark、算法等等。。。结合学过的知识确定大的方向a. 确定技术方向，比如基于Hadoop、基于Hive、基于Spark 等等。。。b. 确定业务方向，比如民宿分析、电商行为分析、天气分析等等。。。确定方向后了解数据是否容

overfit同步小助手 2024-09-29 15:03:40 0 收藏

flink的窗口

窗口是flink中重要的概念，为了方便高效的处理无界流，将数据切成有限的数据块进行处理；

overfit同步小助手 2024-09-29 14:03:29 0 收藏