《数据采集与预处理》实验二 网络爬虫初级实践

《数据采集与预处理》课程的实验二,将带你进入网络爬虫的初级实践世界。这不仅是一个技术实践的机会,更是一次深入了解数据采集流程的宝贵经历。通过本次实验,你将学习如何使用Python编写基本的网络爬虫,掌握网页数据的抓取、解析和存储技术。从理解HTTP请求到应用正则表达式,再到利用BeautifulSo

Hadoop

Hadoop 是处理大规模数据的强大工具,它通过 HDFS 提供分布式存储,通过 MapReduce 实现分布式计算,通过 YARN 管理资源,构成了一个高度可扩展的分布式系统。尽管 Hadoop 由于其批处理特点不适用于所有场景,但它在大数据领域依然具有不可替代的重要地位,尤其是在数据湖和批处理任

【大数据】降维算法

降维算法是机器学习和数据挖掘中常用的技术,旨在减少数据集中的特征数量,同时尽可能保留原始数据的重要信息。降维可以分为线性和非线性两种类型。线性降维方法包括主成分分析(PCA)、线性判别分析(LDA)等,而非线性降维方法包括核主成分分析(Kernel PCA)、t分布随机邻域嵌入(t-SNE)等。

Flink消费Kafka实时写入Doris

通过FileBeat采集日志信息到Kafka,再通过Flink消费Kafka实时写入Doris。

大数据-168 Elasticsearch 单机云服务器部署运行 详细流程

Elasticsearch是一个分布式全文搜索引擎,支持单节点模式(Single-Node Model)和集群模式(Cluster Model)部署,一般来说,小公司的业务场景往往使用Single-Node Mode部署即可。我们需要根据实际的情况进行修改,默认都是1G,单机1G内存,启动会占用70

什么是大数据?为什么是大数据?大数据可以干什么?

大数据”这个术语之所以流行,是因为它准确地描述了现代信息技术环境中数据的规模和复杂性。数据量的爆炸性增长:随着互联网、移动设备、传感器和在线交易的普及,数据生成的速度和数量都在急剧增加。技术进步:存储和计算技术的进步使得我们能够以较低的成本存储和处理大量数据。分析工具的发展:新的数据分析工具和算法,

基于Hadoop的个性化图书推荐系统的设计与实现大数据分析系统(源码+lw+部署文档+讲解等)

💗博主介绍:✌全网粉丝10W+,CSDN特邀作者、博客专家、CSDN新星计划导师、全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌💗👇🏻精彩专栏 推荐订阅👇🏻2025-2026年最值得选的微信小程序毕业设计选题大

Java中的高效数据管道设计:处理大数据的最佳实践

通过Kafka、Spark等技术的结合,我们能够设计出高效且可靠的数据管道架构,确保数据从源头到处理再到存储的整个流程顺畅进行。以下是一个简单的基于Kafka与Spark的数据管道示例,展示如何实现从数据采集到数据处理的流程。今天我们来探讨在Java中如何设计高效的数据管道,尤其是处理大规模数据时,

OceanBase + DolphinScheduler,搭建分布式大数据调度平台的实践

本文主要介绍了DolphinScheduler及其架构、DolphinScheduler与OceanBase 的联合大数据方案。

Kafka-参数详解

我们从producer、consumer、broker三方面对Kafka的参数分别做下整理。

大数据开发--1.1大数据概论

数据大数据定义大数据处理的数据量有多大?大数据解决什么问题?

【大数据】Zab协议

Zab协议是为分布式系统设计的一种支持崩溃恢复的一致性协议。它主要用于实现分布式协调服务,如Apache ZooKeeper。Zab协议确保了分布式系统中所有节点的数据副本能够保持一致,即使在部分节点发生故障的情况下也能正常工作。

使用 Hadoop MapReduce 实现历年最高温度统计

0 : 1);作用:等待 MapReduce 作业完成,并根据作业的执行结果退出 Java 程序。含义提交作业并等待作业完成。根据作业是否成功,返回0或1。用于终止程序,并传递作业的成功或失败状态。

本地windows访问hadoop的hdfs并实现wordcount

下载地址直接下载zip文件,之后保留自己hadoop版本的或者相近版本的就可以,其他都删掉。 这里我保留的3.3.5 因为我的是3.3.1 ok下载完成.配置系统变量: 新建一个环境变量,并写入自己的依赖项路径. 然后再Path中配置:记得点确定!! 这里可能总共有三个确定,必须全点,否则没用.作

大数据-165 Apache Kylin Cube优化 案例 2 定义衍生维度及对比 & 聚合组 & RowKeys

省略Model等操作。构建前面Cube4类似的Cube7,仅在维度定义有区别。(我这里是Clone Cube4,然后修改的)wzk_test_kylin_cube_7的字段中,都是Normal:在单个聚合组中,可以对维度进行设置,包括强制维度、层级维度、联合维度。强制维度:指的是那些总会出现在Whe

如何在hadoop上进行词频统计(完全分布)

可以通过,web UI的方式查看是否上传成功。进入到这个页面,点击右上角的,Utilities,点击第一个选项,即可查看文件是否上传成功。不要自己创建output目录,如果自己创建了output目录会导致程序运行失败,也可以改一个没有碰到过的命令。那么最后,可以去HDFS的ui查看统计结果,结果存放

大数据新视界 --大数据大厂之 Hadoop MapReduce 优化指南:释放数据潜能,引领科技浪潮

本文深入剖析 Hadoop MapReduce 优化方法。阐述其基础原理,包括编程模型、分布式计算流程等。在优化策略上,涵盖数据输入输出优化、代码优化,如选择合适压缩算法、合理分区、优化函数等,并给出示例代码。性能调优针对数据倾斜、内存溢出、任务并行度不合理等问题给出解决方案及对比。探讨与 Spar

Apache Storm实时流处理的核心技术

Apache Storm 是一个流处理引擎,它可以持续处理不断到来的数据流(streams)。Storm 允许用户构建拓扑(Topology)来定义数据流的路径以及处理的逻辑。在这种拓扑中,数据从源(Spout)开始流入,通过一系列的处理节点(Bolt)进行转换或处理,最终得到输出结果。Storm

Apache Doris介绍

Apache Doris 如今在中国乃至全球范围内都拥有着广泛的用户群体,截止目前,Apache Doris 已经在全球超过 4000 家中大型企业的生产环境中得到应用,在中国市值或估值排行前 50 的互联网公司中,有超过 80% 长期使用 Apache Doris,包括百度、美团、小米、京东、字节

Spark高级用法-数据源的读取与写入

使用read和write实现数据导入导出读取mysql数据库的原始数据表在将读取到的数据导入数仓中。

登录可以使用的更多功能哦! 登录
作者榜
...
资讯小助手

资讯同步

...
内容小助手

文章同步

...
Deephub

公众号:deephub-imba

...
奕凯

公众号:奕凯的技术栈