大数据 - overfit.cn

Flink的处理函数——processFunction

overfit同步小助手 2024-01-03 00:03:46 0 收藏

从 MySQL 到 DolphinDB，Debezium + Kafka 数据同步实战

Debezium 是一个开源的分布式数据库变更数据捕获（CDC）工具，Kafka 是一个高吞吐量的分布式消息系统，两者结合，能够为实时数据同步和流式处理提供强大支持。采用 Debezium 与 Kafka 组合的方式，能够轻松实现从 MySQL 到 DolphinDB 的数据同步，点击原文了解更多~

overfit同步小助手 2024-01-02 22:03:37 0 收藏

hadoop02_HDFS的API操作

根据HDFS的URI和配置，创建FileSystem实例根据路径创建HDFS文件夹根据具体的路径创建文件，并且知名是否以重写的方式根据路径删除文件根据路径，返回该路径下所有文件夹或文件的状态。将本地路径下的文件，挪动到HDFS的指定路径下打开指定路径下的文件内容。

overfit同步小助手 2024-01-02 21:03:38 0 收藏

计算机毕设大数据二手房数据爬取与分析可视化 -python 数据分析可视化

# 1 前言🔥 这两年开始毕业设计和毕业答辩的要求和难度不断提升，传统的毕设题目缺少创新和亮点，往往达不到毕业答辩的要求，这两年不断有学弟学妹告诉学长自己做的项目系统达不到老师的要求。为了大家能够顺利以及最少的精力通过毕设，学长分享优质毕业设计项目，今天要分享的是🚩 基于大数据招聘岗位数据分析

overfit同步小助手 2024-01-02 20:03:35 0 收藏

golang—kafka架构原理快速入门以及自测环境搭建（docker单节点部署）

kafka基本数据单元为消息，为了提高网络使用效率，采用批写入方式。

overfit同步小助手 2024-01-02 20:03:12 0 收藏

「大数据集群的搭建和使用」背景知识：大数据Hadoop生态圈介绍

HDFS 是 Hadoop 的主要存储系统，为大数据提供可扩展的、高容错的、可靠的和具有成本效益的数据存储。Hadoop是一个庞大的家族，包含存储，计算等一系列产品组件，需要了解其中的一系列组件，包括HDFS，MapReduce，Yarn，Hive，HBase，ZooKeeper，Flume，Kaf

overfit同步小助手 2024-01-02 18:03:38 0 收藏

Flink DataStream 编程模型

‍都说IT今年很难，越是在这个时候越是要坚持，相信总能看到黎明与曙光。这不我准备整理一下教程，对自己也是一个学习、总结的过程，我相信待到经济复苏，IT仍然是热门。本文是我的第一篇付费文章，这是个开篇纵览，后面会深入讲解Flink理论与开发，不限于Flink这一个组件，后面也会有Spark、Click

overfit同步小助手 2024-01-02 17:03:50 0 收藏

鲜果蓝产品在做营销时利用小红书发布图文笔记有哪些注意事项？

鲜果蓝产品应该注意笔记要有趣有质感，要用实物拍摄照片，文字要简洁明了，字体要清晰大方，频率要适中，这样才能让你的笔记更有吸引力，更能吸引更多的读者，并给你的产品带来更多的销售。频率要适中：频率要适中，不要太过频繁，也不要太少，要根据产品的特点，制定一个合理的频率，让读者有耐心的看完你的笔记，也能让你

overfit同步小助手 2024-01-02 14:03:39 0 收藏

HBase内容分享（五）：HBase读写性能优化

HDFS数据通常存储三份，假如当前RegionA处于Node1上，数据a写入的时候三副本为(Node1,Node2,Node3)，数据b写入三副本是(Node1,Node4,Node5)，数据c写入三副本(Node1,Node3,Node5)，可以看出来所有数据写入本地Node1肯定会写一份，数据都

overfit同步小助手 2024-01-02 13:03:39 0 收藏

云计算复习之Hive数据仓库期末复习整理

首先，hive是一个构建于hadoop集群之上的数据仓库应用。那么，得先了解一下什么是数据仓库？数据仓库是一个数据集合，用于支持管理决策。简单来说就是为了分析数据而设计的仓库。那么hive就好理解了，hive是一个翻译器，不具备计算能力，存储能力，是一个构建于hadoop集群之上的系统，用于存储和处

overfit同步小助手 2024-01-02 13:03:26 0 收藏

大数据机器学习深入Scikit-learn：掌握Python最强大的机器学习库

Scikit-learn是一个强大且易用的Python库，它为我们提供了一整套的机器学习工具，可以用于解决从数据预处理，到模型训练，再到模型评估和参数调优的全流程任务。Scikit-learn的广泛应用，不仅仅因为它的功能强大，更因为它的设计理念——统一的API，使得我们可以快速地切换不同的模型和算

overfit同步小助手 2024-01-02 12:03:44 0 收藏

从零开始了解大数据(一)：数据分析入门篇

在开启大数据的探索之前，我们首先需要理解数据分析的基础与核心。毕竟，大数据的真正价值，是在于对其进行深入、有效的分析后，能够提取出有意义的信息和知识。本文将介绍有关数据分析的知识，希望对大家有所帮助。

overfit同步小助手 2024-01-02 12:03:31 0 收藏

2023年第三届中国高校大数据挑战赛思路及代码

1、大数据统计分析方向涉及内容包含：数据的清洗、数据的预测、数据之间的关联分析、综合评价、分类与判别等2、文本或图象分析方向涉及内容包含：计算机视觉基础、特征匹配算法（常用的图像特征提取及匹配算法，如SIFT、SURF、FAST、BRIEF、ORB等）

overfit同步小助手 2024-01-02 11:03:37 0 收藏

Spark读取HDFS路径文件

有些时候我们希望直接读取HDFS上的文件进行处理，那么我们可以使用 `textFile` 这个方法，这个方法可以将指定路径的文件将其读出，然后转化为Spark中的RDD数据类型。

overfit同步小助手 2024-01-02 11:03:27 0 收藏

jmeter简单压测kafka

就是笔记，自己备忘，也希望博友一次能找到2个方案，帮到大家。

overfit同步小助手 2024-01-02 11:03:21 0 收藏

打破数据孤岛：ChatGPT如何打通金融大数据的任督二脉？

本书是一本针对金融领域的数据分析和机器学习应用的实用指南。本书以ChatGPT为核心技术，结合Python编程和金融领域的基础知识，介绍如何利用ChatGPT处理和分析金融大数据，进行预测建模和智能决策。通过阅读本书，读者将掌握使用ChatGPT和其他工具进行金融大数据分析的基本原理和方法。无论是金

overfit同步小助手 2024-01-02 10:03:16 0 收藏

简单了解一下当前火热的大数据 -- Kylin

只做简单了解，如果你对大数据 Kylin或其他技术话题有任何想法或建议，都可以在博客评论区留言，我们可以一起探讨！祝大家阅读愉快，有问题随时交流！

overfit同步小助手 2024-01-02 09:03:28 0 收藏

Flink项目实战篇基于Flink的城市交通监控平台（上）

近几年来，随着国内经济的快速发展，高速公路建设步伐不断加快，全国机动车辆、驾驶员数量迅速增长，交通管理工作日益繁重，压力与日俱增。为了提高公安交通管理工作的科学化、现代化水平，缓解警力不足，加强和保障道路交通的安全、有序和畅通，减少道路交通违法和事故的发生，全国各地建设和使用了大量的“电子警察”、“

overfit同步小助手 2024-01-02 08:03:51 0 收藏

Zookeeper在分布式命名服务中的实践

Java学习+面试指南：https://javaxiaobear.cn命名服务是为系统中的资源提供标识能力。ZooKeeper的命名服务主要是利用ZooKeeper节点的树形分层结构和子节点的顺序维护能力，来为分布式系统中的资源命名。哪些应用场景需要用到分布式命名服务呢？典型的有：分布式API目录分

overfit同步小助手 2024-01-02 08:03:39 0 收藏

Spark简介

Spark是大数据的调度，监控和分配引擎。它是一个快速通用的集群计算平台.Spark扩展了流行的MapReduce模型.Spark提供的主要功能之一就是能够在内存中运行计算，但对于在磁盘上运行的复杂应用程序，系统也比MapReduce更有效。

overfit同步小助手 2024-01-02 08:03:31 0 收藏