大数据 - overfit.cn

HBase 进阶

每一个 region 维护着 startRow 与 endRowKey，如果加入的数据符合某个 region 维护的rowKey 范围，则该数据交给这个 region 维护。那么依照这个原则，我们可以将数据所要投放的分区提前大致的规划好，以提高 HBase 性能。1）手动设定预分区2）生成 16 进

overfit同步小助手 2024-03-25 15:03:51 0 收藏

spark 数据序列化和内存调优（翻译）

由于大多数Spark计算的内存性质，Spark程序可能会被集群中的任何资源瓶颈：CPU、网络带宽或内存。大多数情况下，如果数据能放在内存，瓶颈是网络带宽，但有时，您还需要进行一些调整，例如以序列化形式存储RDD，以减少内存使用。本指南将涵盖两个主要主题：数据序列化，这对良好的网络性能至关重要，也可以

overfit同步小助手 2024-03-25 15:03:43 0 收藏

【大数据】Flink SQL 语法篇（五）：Regular Join、Interval Join

Join 其实在我们的数仓建设过程中应用是非常广泛的。离线数仓可以说基本上是离不开 Join 的。那么实时数仓的建设也必然离不开 Join，比如日志关联扩充维度数据，构建宽表；日志通过 ID 关联计算 CTR。

overfit同步小助手 2024-03-25 15:03:38 0 收藏

大数据的智慧水务信息共享数据中心的研究与应用

上海安科瑞电气股份有限公司胡冠楠咨询家：“Acrelhgn”，了解更多产品资讯摘要：大数据技术与水务产业深度融合是我国智慧水务发展的必然趋势。结合新时代背景下的水务工作开展的情况，重点结合自身从事水务管理工作的实践经验，多角度分析了智能水务信息共享数据中心的应用中注意要点，并结合具体的水务业

overfit同步小助手 2024-03-25 12:03:50 0 收藏

Spark Streaming 计算窗口的理解

spark streaming 窗口操作

overfit同步小助手 2024-03-25 12:03:23 0 收藏

大数据集群管理软件 CDH、Ambari、DataSophon 对比

DataSophon也是个类似的管理平台，只不过与智子不同的是，智子的目的是锁死人类的基础科学阻碍人类技术爆炸，而DataSophon是致力于自动化监控、运维、管理大数据基础组件和节点的，帮助您快速构建起稳定，高效的大数据集群服务。

overfit同步小助手 2024-03-25 10:03:32 0 收藏

中等职业学校大数据课程建设方案

泰迪智能科技中等职业学校大数据课程建设方案

overfit同步小助手 2024-03-25 09:03:25 0 收藏

大数据技术学习-部署Hadoop完全分布式

本篇文章是本人基于一学期的Hadoop大数据技术原理与应用学习后的总结和感悟，内容包含了配置虚拟机和基于完全分布式模式部署Hadoop

overfit同步小助手 2024-03-25 05:03:36 0 收藏

尾矿库安全监测系统的主要内容和平台

尾矿库安全监测系统是保障尾矿库安全运行的重要手段，通过对尾矿库进行实时监测，可以及时发现潜在的安全隐患，为采取相应的措施提供科学依据。通过对变形因素、相关因素及诱因因素信息的相关分析处理，对灾变体的稳定状态和变化趋势做出判断，同时揭示滑坡、泥石流、崩塌的空间分布规律，对未来可能发生灾害的地段（点）做

overfit同步小助手 2024-03-25 03:06:53 0 收藏

Flink——芒果TV的实时数仓建设实践

overfit同步小助手 2024-03-25 03:03:42 0 收藏

Spark 核心API

这两个函数是 PairRDDFunctions 的匿名类中的函数，从 PairRDDFunctions 的名称中可以知道，PairRDDFunctions 是真的键值对的，也就是说 RDD 中的数据是键值对的时候，我们可以调 PairRDDFunctions 的函数，scala 这个功能好像类的被动

overfit同步小助手 2024-03-25 01:04:18 0 收藏

Pandas处理大数据的性能优化技巧

Pandas是Python中最著名的数据分析工具。在处理数据集时，每个人都会使用到它。但是随着数据大小的增加，执行某些操作的某些方法会比其他方法花费更长的时间。所以了解和使用更快的方法非常重要，特别是在大型数据集中，本文将介绍一些使用Pandas处理大数据时的技巧，希望对你有所帮助数据生成为了方便介

overfit同步小助手 2024-03-25 01:03:57 0 收藏

数据仓库保存历史数据方法之拉链表

在20170101~20170102期间内10003的job为mysql，在20170102~20170103期间内10003的job为mongodb，在20170103~30001231期间内10003的job为hive。个人所接触项目经验，如果极端采用某一种架构，最后数仓项目成功概率都很低，因此

overfit同步小助手 2024-03-25 00:03:36 0 收藏

物联网和大数据可应用在哪些领域？

物联网和大数据可应用在哪些领域？物联网和大数据是近年来最受媒体和企业关注的两大宏观技术趋势。两者也并驾齐驱，物联网旨在特定组织或环境中创建一个互联网络，使用该网络来收集数据并集中执行特定功能。物联网部署会生成大量以前未开发的数据，自动执行以前靠手动操作的任务。为了理解这些数据使自动化有意义需要对这些

overfit同步小助手 2024-03-24 22:03:51 0 收藏

git区域与对象

2 git write -tree是生成暂存区的对象tree同时提交到版本库中(存储到objects下)，我们可以不断的向暂存区进行增删改直到自己满意再进行提交，git对象代表文件的一次次版本，tree对象代表项目的一次次版本,这就是暂存区的作用,因为objects本来就有一个关于test.txt的

overfit同步小助手 2024-03-24 21:04:31 0 收藏

大数据技术Hadoop小白教程（一）——Hadoop概述及环境配置

Hadoop是一个开源的分布式计算框架，用于处理大规模数据集的存储和分析。它基于Google的MapReduce和Google文件系统（GFS）的概念，并且能够在廉价的硬件上运行。Hadoop的核心组件包括Hadoop分布式文件系统（HDFS）和Hadoop YARN（Yet Another Res

overfit同步小助手 2024-03-24 20:03:37 0 收藏

毕设项目分享基于大数据的用户画像分析系统

Hi，大家好，这里是丹成学长，今天做一个电商销售预测分析，这只是一个demo，尝试对电影数据进行分析，并可视化系统🧿选题指导, 项目分享：见文末用户画像是指根据用户的属性、用户偏好、生活习惯、用户行为等信息而抽象出来的标签化用户模型。通俗说就是给用户打标签，而标签是通过对用户信息分析而来的高度精炼

overfit同步小助手 2024-03-24 18:03:44 0 收藏

大数据那些事儿

Hadoop生态圈组建介绍Hadoop是一种大数据框架结构，我们可以把它比作一个大型的工厂。划重点：是个框架，MapReduce就是里面的核心组件HDFS和MapReduceHDPS提供存储，MapReduce提供计算，YARN用于管理和调度HDPS(Hadoop Distributed File

overfit同步小助手 2024-03-24 18:03:07 0 收藏

hadoop分布式环境搭建

(hadoop、jdk文件链接：https://pan.baidu.com/s/1wal1CSF1oO2h4dkSbceODg 提取码：4zra)前四步可参考。

overfit同步小助手 2024-03-24 17:03:22 0 收藏

认识spark,Scala简介

Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。是加州大学伯克利分校AMP实验室（Algorithms, Machines, and People Lab）开发的通用内存并行计算框架Spark得到了众多大数据公司的支持，这些公司包括Hortonworks、IBM、Intel、Clo

overfit同步小助手 2024-03-24 09:03:34 0 收藏