大数据 - overfit.cn

实验五 Spark Streaming编程初级实践

注意，上面命令中，“localhost:9092 wordsender 3 5”是提供给KafkaWordProducer程序的4个输入参数，第1个参数“localhost:9092”是Kafka的Broker的地址，第2个参数“wordsender”是Topic的名称，我们在KafkaWordCo

overfit同步小助手 2024-05-24 02:03:35 0 收藏

二百二十九、离线数仓——离线数仓Hive从Kafka、MySQL到ClickHouse的完整开发流程

离线数仓Hive从Kafka、MySQL到ClickHouse的完整开发流程

overfit同步小助手 2024-05-24 01:04:25 0 收藏

认识Hadoop

Hadoop由Apache基金会开发，开源的、可靠的、可拓展的、用于分布式计算的分布式系统基础架构或框架。MapReduce是Hadoop的核心计算框架——是用于大规模数据集（大于1TB）并行运算的编程模型，主要包括Map（映射）和Reduce（规约）两个阶段。MapReduce的核心思想是—

overfit同步小助手 2024-05-24 01:04:14 0 收藏

太原理工大学大数据期末简答题

第一个节点在接收到数据写入本地的同时，会把数据传给第二个数据节点，同时第二个数据节点接收到数据时，会在写入的同时将数据发送给第三个节点，以此类推。第二名称节点会要求第一名称节点停止使用EditLog，将新到达的操作写入EditLog.new中，然后把FsImage和EditLog拉回本地，将两者进行

overfit同步小助手 2024-05-24 01:04:00 0 收藏

大数据平台和AI的整体架构和开源技术使用

大数据平台为AI提供数据支撑，AI模型则嵌入到大数据处理流程中，实现智能分析和决策。例如，通过Spark或Flink处理原始数据，然后使用MLlib或TensorFlow进行模型训练，最后将训练好的模型部署到如Kafka或Flink的流处理系统中进行实时预测，或者使用TensorFlow Servi

overfit同步小助手 2024-05-24 00:05:07 0 收藏

大数据技术原理及应用课实验3 ：熟悉常用的HBase操作

在本次实验中，我更加进一步理解了HDFS在Hadoop体系结构中的角色并能使用HDFS操作常用的Shell命令以及HDFS操作常用的Java API。在本次实验的第一题是用编程Java API实现指定功能，并用Hadoop提供的HBase Shell命令完成相同任务。在本题中学习了列出HBase所有

overfit同步小助手 2024-05-24 00:04:10 0 收藏

【大数据】分布式数据库HBase下载安装教程

一文详解HBase下载安装教程。

overfit同步小助手 2024-05-24 00:03:59 0 收藏

大数据实验实验四：NoSQL 和关系数据库的操作比较

overfit同步小助手 2024-05-23 23:04:39 0 收藏

Hadoop 安装及目录结构

【1】各个服务组件逐一启动/停止#分别启动/停止HDFS组件#启动/停止YARN【2】各个模块分开启动/停止（配置ssh是前提）#整体启动/停止HDFS start-dfs.sh/stop-dfs.sh #整体启动/停止YARN start-yarn.sh/stop-yarn.sh。

overfit同步小助手 2024-05-23 23:04:24 0 收藏

【postgresql初级使用】可以存储数据的视图-物化视图，加速大数据下的查询分析

本节主要分享物化视图(materialize view)的基础知识，分为原理机制，创建，数据刷新，以及删除等小节。在原理机制一节，会与普通view对比不同点，它们执行机制的差异；之后的各小节结合案例分享语法与使用场景。

overfit同步小助手 2024-05-23 23:04:07 0 收藏

【大数据】计算引擎MapReduce

十分钟，一文，MapReduce核心概念、原理快速入门。

overfit同步小助手 2024-05-23 23:04:04 0 收藏

【大数据】HDFS、HBase操作教程（含指令和JAVA API）

详解HDFS和HBASE的指令操作以及JAVA API。

overfit同步小助手 2024-05-23 23:03:58 0 收藏

机器学习在安全领域的应用：从大数据中识别潜在安全威胁

当谈到机器学习在安全领域的应用时，不可否认其在提升安全保障能力方面的重要性。机器学习技术的迅猛发展和不断完善，为威胁检测、视频监控和自然语言处理等安全领域带来了前所未有的机遇和挑战。本博客将深入探讨机器学习在安全领域的广泛应用，以及其对安全保障能力的提升。在过去的几年中，安全风险与威胁不断增加，传统

overfit同步小助手 2024-05-23 22:09:13 0 收藏

HBase Java API开发：表的扫描与扫描的缓存和批量处理

在右侧编辑器begin-end处编写代码补全tablename为待操作表的表名，要求实现如下操作：删除表中行键为row1row2的行；获取表中行键为row3row10的行；四个操作需要依照以上先后顺序，即先删除在获取row3，row10。不需要你直接输出，只需要将批量操作的返回即可。

overfit同步小助手 2024-05-23 22:04:50 0 收藏

海豚调度系列之：任务类型——Flink节点

本案例为大数据生态中常见的入门案例，常应用于 MapReduce、Flink、Spark 等计算框架。主要为统计输入的文本中，相同的单词的数量有多少。若生产环境中要是使用到 flink 任务类型，则需要先配置好所需的环境。在使用 Flink 任务节点时，需要利用资源中心上传执行程序的 jar 包。F

overfit同步小助手 2024-05-23 22:04:41 0 收藏

Spark01 —— Spark基础

Spark基础为什么选择Spark?Spark基础配置Spark WordCount实例Spark运行架构Spark分区Spark算子Spark优化

overfit同步小助手 2024-05-23 22:04:38 0 收藏

Flink窗口理论到实践 | 大数据技术

⭐⭐个人主页🔎哆啦A梦撩代码🎉欢迎关注🔎👍⭐️留言📝

overfit同步小助手 2024-05-23 22:04:34 0 收藏

踏入大数据的第一天，我先入入门

【转行原因】目前数据每天已亿计算，作为 Java程序员的我已经无法使用常规工具对数据进行捕捉、管理和处理这些数据集合。MySQL的存储容量也只有500-1000行数据。而且数据每天还在告诉增长，还不带重样的。还有就是跟着党走，我要搞新基建。所以我来了，我来了,我踏着七彩祥云走来了…按顺序给出存储单位

overfit同步小助手 2024-05-23 22:04:21 0 收藏

车联网大数据与人工智能一体化：开启智慧出行新时代

车联网通过将车辆与互联网相连，实现了车辆信息的采集、传输和处理，为用户提供了更加智能、便捷的出行服务。而大数据和人工智能作为车联网的核心技术，为车辆数据的分析和利用提供了重要支撑，可以帮助实现智能驾驶、智慧交通等多种应用场景。

overfit同步小助手 2024-05-23 22:04:18 0 收藏

【大数据】LSM树，专为海量数据读写而生的数据结构

一文详聊LSM树这种专为海量数据读写而生的数据结构

overfit同步小助手 2024-05-23 22:04:11 0 收藏