大数据 - overfit.cn

基于Hadoop平台的电信客服数据的处理与分析④项目实现：任务15：数据生产

电信数据生产是一个完整且严密的体系，这样可以保证数据的鲁棒性。在本项目的数据生产模块中，我们来模拟生产一些电信数据。同时，我们必须清楚电信数据的格式和数据结构，这样才能在后续的数据产生、存储、分析和展示环节中正确使用数据，避免可能出现的问题。

overfit同步小助手 2024-08-28 19:03:59 0 收藏

基于SpringBoot+数据可视化+大数据爬虫的亚健康数据可视化统计分析平台设计和实现(源码+LW+部署讲解)

基于大数据的亚健康人群数据可视化是一种利用数据分析和图形展示技术，对大量亚健康人群数据进行整合、分析和呈现的方法。通过收集和处理来自各种来源的数据，该系统能够揭示亚健康状态的分布特征、影响因素和发展趋势，为健康管理和政策制定提供科学依据。在数据可视化方面，系统采用了多种直观的图形展示方式。通过颜色、

overfit同步小助手 2024-08-28 19:03:43 0 收藏

spark Standalone ha 集群部署

准备三台服务器，配置好对应主机的网络IP、主机名称、关闭防火墙、主机名masterslavescdh101√√cdh102√cdh103√用于Worker的Web UI用于Worker的Web UI应用程序（Driver和Executor）使用的端口5050、4040用于Executor的启动和Dr

overfit同步小助手 2024-08-28 18:04:46 0 收藏

大数据-44 Redis 慢查询日志监视器慢查询测试学习

上节完成了Redis Lua脚本的扩展，Lua在Redis的使用案例。本节学习Redis慢查询日志，监视器，慢查询测试学习。 Redis 客户端可以通过执行 MONITOR 命令将自己变成一个监视器，实时接受并打印服务器当前处理的命令请求的相关信息。此时，当其他客户端向服务端发送一条命令时，服务器除

overfit同步小助手 2024-08-28 18:04:00 0 收藏

数据仓库基础理论—数仓分层

在国内主流的数据仓库设计中，通常会采用多层架构来管理和组织数据，常见的层次：ODS（操作数据存储）、DWD（数据仓库明细层）、DWS（数据仓库汇总层）、DIM（维度模型层）和ADS（应用数据服务层）。

overfit同步小助手 2024-08-28 16:04:14 0 收藏

基于Hadoop的区块链海量数据存储的设计与实现

本文基于Hadoop技术，探讨了如何设计和实现基于区块链的海量数据存储系统。随着区块链技术的快速发展和广泛应用，大量的数据需要被存储和管理。然而，由于区块链的去中心化和不可篡改性质，传统的数据库技术在处理海量数据时遇到了困难。因此，利用Hadoop这一成熟的分布式存储和处理框架，本文提出了一种可扩展

overfit同步小助手 2024-08-28 14:03:18 0 收藏

智能巡检新突破：防爆巡检机器人打造油气化工安全高效新标杆

相比之下，智能巡检方案成本和效率更优，可代替人工在危险环境中巡检，搭载巡检设备和数据分析系统，实时传输画面和分析设备运行情况，预警异常并远程报警，提前遏制安全隐患，且能24小时移动巡检。：在钢铁冶金的高温、粉尘环境中，防爆巡检机器人可自主巡检设备状态，如高炉、转炉的冷却水系统、除尘设备等，通过红外测

overfit同步小助手 2024-08-28 13:07:18 0 收藏

标准化大厂编程规范解决方案之ESLint + Git Hooks

一文带你搞定大厂开发规范的搭建

overfit同步小助手 2024-08-28 13:04:41 0 收藏

Spark机器学习基础

不纯度 = P(X=0)(1-P(X=0)) + P(X=1)(1-P(X=1)) = 0.25 + 0.25 = 0.5。用来防止模型过拟合的参数，虽然线性模型本身是欠拟合的但是还是需要正则化系数来帮助我们调整模型。PCA使用的信息量衡量指标，就是样本方差，又称可解释性方差，方差越大，特征所带的

overfit同步小助手 2024-08-28 13:04:04 0 收藏

数据仓库-离线数据仓库架构-002

切分多个Task之后，DataX Job会调用Scheduler模块，根据配置的并发数据量，将拆分成的Task重新组合，组装成TaskGroup(任务组)。对于sqoop和datax，如果只是单纯的数据同步，其实两者都是ok的，但是如果需要集成在大数据平台，还是比较推荐使用datax，原因就是支持流

overfit同步小助手 2024-08-28 13:03:49 0 收藏

大学期末大作业-基于spark探索b站每周必看视频热门的因素

作业记录

overfit同步小助手 2024-08-28 13:03:29 0 收藏

企业数字化转型建设思路、本质、数字化架构、数字化规划蓝图

原文《企业数字化规划蓝图、数字化企业架构、数字化转型战略规划方案》PPT格式，共76页。企业数字化转型是一场深刻而复杂的变革，需要企业高层领导的坚定决心、全体员工的积极参与以及科学合理的规划与实施。通过明确建设思路、把握转型本质、构建数字化架构、制定规划蓝图，企业可以稳步推进数字化转型进程，最终实现

overfit同步小助手 2024-08-28 10:03:51 0 收藏

大数据技术基础综述

大数据时代的来临，带来了信息技术发展的巨大变革，在金融、汽车、零售、餐饮、电信、能源、医疗等社会各行各业都有大数据的身影。大数据技术深刻影响着社会生产和人民生活。世界主要国家高度重视大数据发展，我国也将发展大数据作为国家战略。当谈及大数据时，往往并非仅指数据本身，而是数据和大数据技术二者的综合。大数

overfit同步小助手 2024-08-28 10:03:24 0 收藏

深入探索【Hadoop】生态系统：Hive、Pig、HBase及更多关键组件（下）

本文深入探索了Hadoop生态系统的核心组成部分及其关键组件，特别是聚焦于Hive、Pig和HBase这三个重要工具。Hadoop作为大数据处理和分析的基石，通过其丰富的生态系统为企业和组织提供了强大的数据处理能力。首先，文章介绍了Hive，作为Hadoop上的数据仓库工具，Hive允许用户通过类S

overfit同步小助手 2024-08-28 10:03:20 0 收藏

大数据-46 Redis 持久化 RDB AOF 配置参数混合模式具体原理触发方式优点与缺点

上节Redis持久化概念介绍，RDB和AOF对比。本节配置RDB、AOF参数，运行原理，混合模式、两者的优点和缺点。Redis 加了一个 AOF 缓存，这个缓存在Fork出子进程之后，Redis主进程接收到新的写命令时，除了会将这个命令追加到现有的AOF文件，还会。RDB（Redis DataBas

overfit同步小助手 2024-08-28 09:03:51 0 收藏

为什么客户选择 Elastic 来处理日志？

Elastic 正在改变日志体验以满足现代工作流程的需求。在没有其他可观察性信号的情况下，通常基础设施（硬件、软件和服务）中的所有内容都会发出日志行。然而，日志通常是根据开发人员的想法构建的，并且首先是为了满足开发人员的需求（例如调试）。一旦投入生产，这些相同的日志行就会被提升为观察应用程序和基础设

overfit同步小助手 2024-08-28 08:03:52 0 收藏

【2024.7.18】数据中台知识体系

来数据仓库的主要场景是支持管理决策和业务分析，而数据中台则是将数据服务化之后提供给业务系统，目标是将数据能力渗透到各个业务环节，不限于决策分析类场景。数据中台持续不断地将数据进行资产化、价值化并应用到业务，而且关注数据价值的运营。数据中台建设包含数据体系建设，也就是数据中台包含数据仓库的完整内容，数

overfit同步小助手 2024-08-28 06:03:40 0 收藏

使用住宅代理抓取奥运奖牌新闻，全面掌握赛事精彩瞬间

无论是为了实时跟踪奥运奖牌新闻，还是为了更好地分析体育发展趋势，新闻抓取都是一种强大的工具。随着技术的发展，新闻抓取的应用范围将会越来越广，尤其是在涉及到全球重大事件时，能够迅速、全面地掌握第一手资讯，将成为你在竞争中脱颖而出的关键。而使用住宅代理，更是为这一过程增添了一层保障，确保你能够稳定、顺畅

overfit同步小助手 2024-08-28 05:03:43 0 收藏

大数据产业链图谱_产业链全景图_大数据行业市场分析

大数据产业链上游为基础支持层，包括数据源、数据采集、底层技术、数据安全等环节，中游为数据处理层，包括数据分析、数据挖掘、数据可视化等环节，下游主要为行业应用、解决方案及通用产品。

overfit同步小助手 2024-08-28 03:04:03 0 收藏

一文读懂古瑞瓦特全场景PCS及能管解决方案

古瑞瓦特除了可提供全场景的PCS产品以外，还可提供成熟，稳定，免费的智慧能管解决方案，单设备监控采用的WiFi，4G，LAN和WiLAN采集器可以灵活选择，多设备监控采用的GroHome Manager，Shine Link-X，Shine SEM-X能管设备也可依据应用场景进行选择，同时配套有成熟

overfit同步小助手 2024-08-28 03:03:58 0 收藏