大数据 - overfit.cn

Python大数据之PySpark(七)SparkCore案例

重点关注在如何对数据进行清洗，如何按照需求进行统计1-rdd的创建的两种方法，必须练习2-rdd的练习将基础的案例先掌握。map。flatMap。3-sougou的案例需要联系2-3遍练习流程：首先先要将代码跑起来然后在理解代码，这一段代码做什么用的在敲代码，需要写注释之后敲代码。

overfit同步小助手 2023-10-09 21:03:30 0 收藏

基于Elasticsearch与Hbase组合框架的大数据搜索引擎

本项目为学校大数据工程实训项目，共开发4周，答辩成绩不错。代码仓库放文章尾，写的不好，代码仅供参考。

overfit同步小助手 2023-10-09 19:03:58 0 收藏

Hive连接异常：无法通过JDBC连接打开客户端传输（JDBC Uri: jdbc:hive2:// 大数据）

总结起来，当遇到"Hive连接报错：Could not open client transport with JDBC Uri: jdbc:hive2:// 大数据"的问题时，我们可以先检查网络连接是否正常，然后确保Hive服务器的配置正确，并确认服务器正在运行。通过提供正确的JDBC连接URI（如

overfit同步小助手 2023-10-09 16:03:39 0 收藏

人工智能革命是否已经到来？

人工智能革命（Artificial Intelligence Revolution）已经成为近些年科技界最热门的话题。自从2010年以来，随着机器学习、深度学习、强化学习等技术的应用日渐普及，机器学习已经成为主要研究领域之一，它可以解决很多复杂的问题。那么，人工智能革命的到来究竟意味着什么呢？是否意

overfit同步小助手 2023-10-09 11:01:49 0 收藏

第八篇——Kafka Streams源码解读

作者：禅与计算机程序设计艺术 1.简介Kafka Streams是一个开源分布式流处理平台，它可以让你轻松处理实时数据流。通过Kafka Streams API可以轻松创建、部署和运行复杂的实时流处理应用程序。虽然Kafka Stream提供了许多高级功能，但其

overfit同步小助手 2023-10-09 10:03:50 0 收藏

Kafka Internals How Does it Solve Message Loss?

作者：禅与计算机程序设计艺术 1.简介Kafka是Apache开源流媒体平台项目中的一个主要子项目，是一个高吞吐量、低延迟的数据传输系统。基于发布/订阅模式的分布式消息系统，可以实现消息发布和订阅。通过“消息队列”这一中间件的机制，将数据生产者与消费者解耦合。K

overfit同步小助手 2023-10-09 06:03:44 0 收藏

Hadoop 2.7 再次降临——深入剖析 Hadoop 的设计思想

作者：禅与计算机程序设计艺术 1.简介随着云计算、大数据和机器学习的应用普及，越来越多的企业、组织和个人开始使用基于 Hadoop 之上的开源分布式框架进行数据处理、分析和挖掘，甚至构建自己的大数据平台。作为 Hadoop 框架最主要的开发者和拥护者，Apach

overfit同步小助手 2023-10-09 05:03:34 0 收藏

git清除历史纪录

Git 是一种常用的版本控制工具，被广泛用于项目开发中。在项目开发的过程中，我们通常会使用各种 git 命令来进行版本控制和管理，其中包括提交代码，合并分支等操作。然而，在某些情况下，我们可能需要清除 Git 历史纪录，比如删除敏感信息或清除不必要的提交记录。下面我们将讨论如何清除 Git 的历史纪

overfit同步小助手 2023-10-09 02:04:09 0 收藏

【人工智能】自动化编程的历史，现状，发展与未来

自动化编程作为一个充满挑战和机遇的领域，已在各个层面取得了显著成果。从编译器、编程生成器到深度学习算法的应用，自动化编程经历了不少阶段。尽管预测未来发展是非常困难的，但自动化编程绝对是一个令人振奋的领域。随着相关技术的快速发展，自动化编程可以为个人和企业带来更多价值，提高生产效率，降低维护成本，且具

overfit同步小助手 2023-10-09 02:01:48 0 收藏

2023_Spark_实验九：Scala函数式编程部分演示

Scala，基于idea开发wordcout。

overfit同步小助手 2023-10-08 20:03:40 0 收藏

大数据之使用Flume监听端口采集数据流到Kafka

本题来源于全国职业技能大赛之大数据技术赛项电商赛题 - 实时数据采集题目很简单。大数据处理涉及到海量的数据采集和处理，如何高效地采集数据是一个重要的问题。Flume是一个分布式的、可靠的、高可用的海量日志采集工具，可以轻松地采集、聚合和移动大量的数据。在数据采集过程中，Flume可以使用网络协议、文

overfit同步小助手 2023-10-08 20:03:29 0 收藏

Flink、Yarn架构，以Flink on Yarn部署原理详解

overfit同步小助手 2023-10-08 20:03:22 0 收藏

泰迪大数据实训平台产品介绍

大数据实训管理平台、大数据开发实训平台、大数据编程实训平台

overfit同步小助手 2023-10-08 17:03:36 0 收藏

处理el-table大数据卡顿的问题，包含tree型数据格式

有时候el-table的数据可能有成千上万条，而且又要在一页显示完，这时候页面渲染的dom太多了，可能会造成页面卡顿。因为数据量过多导致浏览器渲染过多的标签元素导致DOM树占用内存较大使得用户操作阻塞。具体原理可参考别的大佬写的文章：DOM性能瓶颈与Javascript性能优化.使用第三方插件

overfit同步小助手 2023-10-08 11:03:59 0 收藏

Spark SQL

Spark SQL属于Spark计算框架的一部分，是专门负责结构化数据的处理计算框架，Spark SQL提供了两种数据抽象：DataFrame、Dataset,都是基于RDD之上的一种高级数据抽象，在RDD基础之上增加了一个schema表结构。DataFrame是以前旧版本的数据抽象（untyped

overfit同步小助手 2023-10-08 06:03:42 0 收藏

基于Hadoop的学生校园网行为分析

🙌😂oi退役选手，Java、大数据、单片机、IoT均有所涉猎，热爱技术，技术无罪获取源码，添加WX。

overfit同步小助手 2023-10-08 04:03:57 0 收藏

flink-对齐和不对齐，精准一次和至少一次

精准一次怎么保证？可以设置为以下2个对齐当有一个barrier比较快时，输入缓冲区阻塞，当另外一个barrier到来时，才进行备份，所以数据不会重复。优点：不会造成数据重复缺点：会造成数据积压，OOM 不对齐当有一个barrier到来时，直接将barrier置到最后，然后

overfit同步小助手 2023-10-07 23:03:42 0 收藏

Hadoop常用端口号

需要注意的是，以上端口号列表并非所有 Hadoop 组件的完整列表，不同版本和配置的 Hadoop 可能会使用不同的端口号。在使用 Hadoop 时，需要根据具体的环境和配置进行相应的端口号配置和调整。Hadoop 是一个由多个组件构成的分布式系统，每个组件都会使用一些特定的端口号来进行通信和交互。

overfit同步小助手 2023-10-07 21:03:14 0 收藏

（二十八）大数据实战——Flume数据采集之kafka数据生产与消费集成案例

通过flume监听nc端口的数据，将数据发送到kafka消息的first主题中，然后在通过flume消费kafka中的主题消息，将消费到的消息打印到控制台上。该案例证明了flume1成功采集到了nc监听端口的数据，并将数据发送到了kafka主题first中，flume2成功从kafka主题中消费到了

overfit同步小助手 2023-10-07 15:03:38 0 收藏

The Deep Learning AI for Environmental Monitoring——Deep

作者：禅与计算机程序设计艺术 1.简介环境监测是整个经济社会发展的一个重要环节，环境数据是影响经济、金融、社会和政策走向的不可或缺的组成部分。目前，环境监测主要依靠地面站（例如气象台）或者卫星遥感影像获取的数据进行实时监测，其精确度受到数据源和采集技术、传感器尺

overfit同步小助手 2023-10-07 15:01:23 0 收藏