大数据 - overfit.cn

网约车大数据综合项目——数据可视化Flask+Echarts

网约车大数据综合项目——数据可视化Flask+Echarts第1关使用饼图展示撤销订单理由最多的前10种理由class Config(object): #连接数据库 ########## Begin ########## SQLALCHEMY_DATABASE_URI = "my

overfit同步小助手 2024-06-29 08:03:58 0 收藏

基于Spark的学情日志数据分析可视化系统

overfit同步小助手 2024-06-29 08:03:33 0 收藏

Git详解(带图) --- 本地电脑的工作区、暂存区、本地仓与远程仓_git 工作区域

个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频，并且后续会持续更新**

overfit同步小助手 2024-06-29 04:04:08 0 收藏

大数据-数据分析初步学习，待补充

日活跃用户，定义一个自然日不重复（去重）的用户，跨时区（如全球服务），则关心最近24小时。一般PV/PV，UV/UV，也有PV/UV,eg：详情页PV/详情页UV=人均页面查看数。月活跃用户，MAU

overfit同步小助手 2024-06-29 03:03:43 0 收藏

2024体育赛事一波接一波，大学生借IKCEST国际大数据竞赛打造AI“嘴强”主播

2024德国欧洲杯激战正酣，不但比赛精彩纷呈，各种新科技还竞相“整活”。从虚拟广告技术到人工智能辅助裁判，令人目不暇接。而“AI+体育”的想象空间，还不仅于此。近日，2024IKCEST第六届“一带一路”国际大数据竞赛暨第十届百度&西安交大大数据竞赛（以下简称“IKCEST国际大数据竞赛”）正式启动

overfit同步小助手 2024-06-28 21:01:27 0 收藏

【大数据复习】第7章 MapReduce（重中之重）

Master：是整个集群的唯一的全局管理者，功能是作业管理、状态监控和任务调度等，即MapReduce中的JobTracker。（3）每个节点都有一定数量的 Map slot 和 Reduce slot，它们的数量可以根据集群配置和需求动态分配。，以便后续Reduce阶段对同一个键的值进行聚合处理。

overfit同步小助手 2024-06-28 20:03:16 0 收藏

Flink CDC3.1版本数据同步记录

需要下载flink-cdc需要的连接器胖包，放在解压flink-cdc后的lib下。此处按需source源和sink源进行下载，本人使用mysql to kafka，（也是去官方的github上下载。此为最简单的flink部署，具体依据生产项目需要选择集群部署，部署方式网上很多，不做赘述。首先，监听

overfit同步小助手 2024-06-28 19:03:34 0 收藏

【大数据】什么是数据集成？（附FineDataLink集成工具介绍）

本文旨在介绍数据集成以及它的重要性，并推荐好用的数据集成工具。

overfit同步小助手 2024-06-28 17:03:23 0 收藏

聊聊Flink：Docker搭建Flink

现在，可以通过Flink Web界面提交和管理Flink作业。首先，将一个Flink作业的JAR文件上传到Flink Web界面。其中，<jobmanager_container_id>是Flink集群中jobmanager容器的ID，/path/to/job.jar是Flink作业的JAR文件路径

overfit同步小助手 2024-06-28 14:03:44 0 收藏

HBase与传统关系型数据库的区别

1.背景介绍HBase是一个分布式、可扩展、高性能的列式存储系统，它基于Google的Bigtable设计，并且是Hadoop生态系统的一部分。HBase可以存储大量数据，并提供快速的随机读写访问。与传统的关系型数据库不同，HBase是非关系型数据库，它不支持SQL查询语言。关系型数据库和HBase

overfit同步小助手 2024-06-28 12:03:58 0 收藏

【大数据 Hadoop zookeeper】基于azure云服务器的hadoop HA高可用性集群搭建

windows Azure提供了学生认证，通过学生认证后，每年可以免费使用100刀以内的相关云服务。笔者建议大家都可以去申请一个学生优惠认证，感兴趣可以搜索一下。下面的教程是笔者学生认证后搭建hadoop集群的全过程。

overfit同步小助手 2024-06-28 11:03:50 0 收藏

学习Spark的数据清洗与预处理

1.背景介绍数据清洗和预处理是数据科学和机器学习的基础，它们有助于提高模型的准确性和性能。在大数据领域，Apache Spark是一个流行的分布式计算框架，它可以处理大量数据并提供高性能的数据处理能力。在本文中，我们将探讨如何使用Spark进行数据清洗和预处理。1. 背景介绍数据清洗和预处理是指对原

overfit同步小助手 2024-06-28 09:03:54 0 收藏

基于Spark3.3.4版本，实现Spark On Yarn 模式部署

企业中的海量数据都会使用大数据相关计算框架进行分析处理，在早期大数据处理中，我们会选择使用MapReduce分析处理海量数据，MapReduce存在计算慢、代码编写复杂、不支持流式计算及性能上的一些问题，Apache Spark计算框架的出现解决了MapReduce计算框架以上各种问题，Apache

overfit同步小助手 2024-06-28 09:03:48 0 收藏

头歌：Spark任务提交

这段脚本首先将 project.jar 复制到 /root 目录下，然后切换到 /opt/spark/dist/bin 目录。在 begin 和 end 之间，使用 spark-submit 命令提交 Spark 程序，其中 --master local 指定了本地模式，--class Studen

overfit同步小助手 2024-06-28 08:03:23 0 收藏

3、Flink执行模式（流/批）详解（上）

Flink执行模式（流/批）详解（上）

overfit同步小助手 2024-06-28 07:03:45 0 收藏

Spark与Hadoop的关系和区别

Hadoop是一个由Apache基金会维护的开源分布式数据处理框架。Hadoop分布式文件系统（HDFS）：用于存储大规模数据的分布式文件系统。Hadoop MapReduce：用于分布式数据处理的编程模型和框架。Hadoop最初是为批处理任务设计的，适用于对大规模数据进行批处理分析。Spark与H

overfit同步小助手 2024-06-28 05:03:41 0 收藏

spark独立集群搭建

overfit同步小助手 2024-06-28 01:03:42 0 收藏

spark 实验二 RDD编程初级实践

请下载chapter4-data1.txt，该数据集包含了某大学计算机系的成绩，数据格式如下所示：Jim,,60……

overfit同步小助手 2024-06-28 00:03:47 0 收藏

基于医疗大数据的疾病诊断与预测模型研究

基于医疗大数据的疾病诊断与预测模型是医疗领域的一个重要研究方向。通过利用大数据的优势，这些模型可以提供更准确和可靠的诊断和预测结果，为医疗决策和公共卫生工作提供支持。然而，面临的技术挑战仍然需要克服，包括隐私保护、数据质量和模型解释性等问题。相信随着技术的不断进步和政策的规范，基于医疗大数据的疾病诊

overfit同步小助手 2024-06-27 18:03:41 0 收藏

hadoop三大核心组件及其功能

Hadoop的三大核心组件是HDFS（Hadoop Distributed File System）、MapReduce和YARN（Yet Another Resource Negotiator）。以上三大组件共同构成了Hadoop的核心功能，它们分别负责数据的存储、计算和资源管理，为大数据处理提供

overfit同步小助手 2024-06-27 15:03:52 0 收藏