大数据 - overfit.cn

2024统计建模：大数据与人工智能时代的统计研究

大数据与人工智能时代的统计研究

overfit同步小助手 2024-05-23 22:04:08 0 收藏

智慧交通系统：安全保障与便利出行

智能交通管理系统利用先进的技术手段，例如交通信号控制、车辆检测等，实现对交通流量的实时监测和控制，从而优化交通流动，减少交通堵塞和事故发生的可能性。此外，智慧交通系统还涉及到了智能车辆和智能交通设施的开发和应用。智能交通设施则包括智能交通标志、智能停车管理系统等，它们能够通过无线传感器和通信技术，实

overfit同步小助手 2024-05-23 21:09:17 0 收藏

大数据中的项目数据采集

官网：DataX 是阿里云的开源版本，在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX 实现了包括 MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)

overfit同步小助手 2024-05-23 21:04:47 0 收藏

【Hadoop】DataNode 数据盘进行磁盘DiskBalancer

DiskBalancer是一个命令行工具，可在DataNode的所有磁盘上均匀分发数据。此工具对给定的DataNode进行操作，并将块从一个磁盘移动到当前DataNode的另一个磁盘。DiskBalancer通过创建计划并继续在DataNode上执行该计划。计划是一组陈述，描述了两个磁盘之间应该

overfit同步小助手 2024-05-23 21:04:36 0 收藏

数据湖技术选型——Flink+Paimon 方向

本文结合 Flink 对几大数据湖选型进行了对比，最终选择使用 Flink + Paimon 技术栈。

overfit同步小助手 2024-05-23 21:04:25 0 收藏

Seal^_^【送书活动第2期】——《Flink入门与实战》

overfit同步小助手 2024-05-23 21:04:21 0 收藏

HBase 基础结构

HBase 是一个分布式[集群]、可扩展[动态上下线]、支持海量存储的 NoSQL 数据库。相当于 BigTable，负责海量数据的存储。如果数据量小的时候不适合使用 HBase，因为生产上需要不断的切分和合并比较消耗资源。如果数据量比较大，可以做到几十亿条数据秒级查询。支持数据的增删改查，实现了

overfit同步小助手 2024-05-23 21:04:18 0 收藏

【大数据】分布式数据库HBase

一文聊明白分布式数据库HBase

overfit同步小助手 2024-05-23 21:04:12 0 收藏

基于大数据爬虫技术的图书推荐系统与可视化平台设计和实现

随着信息技术的飞速发展，特别是互联网和移动通信技术的普及，数字化阅读逐渐成为人们获取知识和信息的重要方式。在这样的背景下，电子图书以其便捷性和丰富性受到了广泛欢迎。随着电子图书市场的不断扩大，书籍的种类和数量也在急剧增加，这为用户挑选书籍带来了挑战。为了解决信息过载的问题，个性化推荐系统应运而生，并

overfit同步小助手 2024-05-23 21:04:08 0 收藏

基于大数据+Hadoop的豆瓣电子图书推荐系统设计和实现

随着信息技术的飞速发展，特别是互联网和移动通信技术的普及，数字化阅读逐渐成为人们获取知识和信息的重要方式。在这样的背景下，电子图书以其便捷性和丰富性受到了广泛欢迎。随着电子图书市场的不断扩大，书籍的种类和数量也在急剧增加，这为用户挑选书籍带来了挑战。为了解决信息过载的问题，个性化推荐系统应运而生，并

overfit同步小助手 2024-05-23 21:04:01 0 收藏

Spark-Scala语言实战（18）SQL-DataFrame方法

这篇文章我会带着大家学习Spark SQL中的DataFrame中show()，selectExpr()，select()，filter()/where，groupBy()，sort()6种方法。了解Spark SQL以及DataFrame。希望我的文章能帮助到大家，也欢迎大家来我的文章下交流讨论，

overfit同步小助手 2024-05-23 21:02:36 0 收藏

Hadoop简介

hadoop简介

overfit同步小助手 2024-04-11 12:03:49 0 收藏

FlinkCDC系列之Oracle实时数据采集

新增一条数据：INSERT INTO "FLINKUSER"."ORDERS"("ORDER_ID", "ORDER_DATE", "CUSTOMER_NAME", "PRICE", "PRODUCT_ID", "ORDER_STATUS") VALUES ('10006', TO_TIMESTAM

overfit同步小助手 2024-04-11 10:03:53 0 收藏

大数据与物联网安全：数据的安全性与可靠性的专业研究与发展

1.背景介绍随着大数据和物联网技术的不断发展，数据的安全性和可靠性成为了越来越重要的问题。大数据与物联网安全的研究和发展对于保障数据安全性和可靠性至关重要。本文将从以下几个方面进行探讨：背景介绍核心概念与联系核心算法原理和具体操作步骤以及数学模型公式详细讲解具体代码实例和详细解释说明未来发展趋势与挑

overfit同步小助手 2024-04-11 08:03:26 0 收藏

今天来认识一下无聊的spark和scala基础理知识

Spark 应用程序计算的整个过程可以调用不同的组件，如 Spark Streaming 的实时流处理应用、SparkSQL的即席查询、BlinkDB 的权衡查询、MLlib/MLBase 的机器学习、GraphX的图处理和SparkR的数学计算等。Scala 是一种纯粹的面向对象的语言，每个值都是

overfit同步小助手 2024-04-11 04:03:26 0 收藏

大数据在社交媒体行业的影响

1.背景介绍社交媒体是当今互联网行业中最快速发展的领域之一。随着互联网的普及和人们生活中的网络化程度的不断提高，社交媒体已经成为了人们日常生活中不可或缺的一部分。社交媒体平台为用户提供了一种方便、实时、互动的沟通方式，让人们可以轻松地与家人、朋友、同事等人保持联系，分享自己的生活体验和想法。然而，随

overfit同步小助手 2024-04-11 03:03:47 0 收藏

云计算与大数据笔记之Spark【重点：流水线机制】

Spark的设计遵循“一个软件栈满足不同应用场景既能够提供内存计算框架，也可以支持SQL即时查询、实时流式计算、机器学习和图计算等。Spark可以部署在资源管理器YARN之上，提供一站式的大数据解决方案。因此，Spark所提供的生态系统足以应对上述三种场景，即同时支持批处理、交互式查询和流数据处理。

overfit同步小助手 2024-04-11 03:03:09 0 收藏

大数据的应用与成果

1.背景介绍大数据是指由于互联网、移动互联网、社交网络、物联网等信息技术的发展而产生的数据量巨大、数据类型多样、数据流动性高的数据集合。大数据的特点是五个V：Volume(数据量)、Velocity(数据速度)、Variety(数据类型)、Veracity(数据可靠性)和Value(数据价值)。大数

overfit同步小助手 2024-04-11 00:03:49 0 收藏

Hadoop平台搭建（一）

Hadoop平台的搭建需要一个主节点，多个副节点。在centos7中创建主机Master后，克隆主机为slave1与slave2，为保证从Hadoop平台的稳定选择完整克隆。克隆机slave1、slave2后的主机名依旧是Master，所以要修改主机名。由于slave1为Master的克隆机故uui

overfit同步小助手 2024-04-11 00:03:22 0 收藏

Spark SQL

Spark为结构化数据处理引入了一个称为Spark SQL的编程模块。它提供了一个称为DataFrame的编程抽象，并且可以充当分布式SQL查询引擎。

overfit同步小助手 2024-04-10 20:11:53 0 收藏