大数据 - overfit.cn

Flink

Apache Flink 是一个功能强大、性能卓越的分布式流处理框架，适用于需要实时处理和分析数据的各种应用场景。它的低延迟、高吞吐、强大的状态管理和容错机制，使其成为构建现代实时数据处理系统的理想选择。通过提供统一的批处理和流处理 API，Flink 也降低了开发复杂性，使开发者能够更加专注于业务

overfit同步小助手 2024-09-24 19:03:41 0 收藏

基于大数据爬虫+Python+数据可视化大屏的粮食行业媒体舆情分析与可视化平台系统(源码+论文+PPT+部署文档教程等)

近年来，科技飞速发展，在经济全球化的背景之下，大数据将进一步提高社会综合发展的效率和速度，大数据技术也会涉及到各个领域，而爬虫实现媒体舆情分析系统在媒体舆情分析系统背景下有着无法忽视的作用。管理信息系统的开发是一个不断优化的过程，随着网络大数据时代的到来，管理信息系统与大数据集成为必然。本次将以粮食

overfit同步小助手 2024-09-24 19:03:36 0 收藏

Flink-算子

用户通过算子能将一个或多个 DataStream 转换成新的 DataStream，在应用程序中可以将多个数据转换算子合并成一个复杂的数据流拓扑。这部分内容将描述 Flink DataStream API 中，数据转换后各种，以及。

overfit同步小助手 2024-09-24 18:03:54 0 收藏

从数据仓库到数据中台再到数据飞轮，我了解的数据技术进化史

数据技术的演化从数据仓库到数据中台，再到数据飞轮，反映了企业在数据管理和使用上的需求从基础的存储、查询向更高效、更智能的方向发展。现在来谈谈每个阶段的技术架构理念以及其特定的目标和侧重点。数据仓库通过存储大量结构化数据，支撑企业的战略决策。但随着企业业务的多样化和数据来源的复杂化，数据仓库难以应对非

overfit同步小助手 2024-09-24 14:03:27 0 收藏

Hologres 在大数据实时处理中的应用

Hologres 基于 PostgreSQL 协议开发，支持标准 SQL 语句，使得开发者可以轻松地使用熟悉的工具进行操作。高性能：利用列式存储和向量化执行引擎实现高效的数据处理。高可用性：通过多副本机制确保数据的安全性和服务的可靠性。弹性扩展：支持按需横向扩展，满足不同规模的数据处理需求。实时性：

overfit同步小助手 2024-09-24 13:04:04 0 收藏

【大数据】深入了解Hadoop

hdfs的元数据两个部分内存上的元数据在服务运行期间,所有的元数据会先存储在内存上文件信息,datanode信息,块信息元数据文件为了避免内存上的元数据丢失,会将内存的上的元数据保存在磁盘上secondarynamenode完成元数据文件的保存存储位置在hadoop的指定数据edits_xxxxx

overfit同步小助手 2024-09-24 13:03:45 0 收藏

大数据Flink（一百二十一）：Flink CDC基本介绍

Flink CDC 基于数据库日志的 Change Data Caputre 技术，实现了全量和增量的一体化读取能力，并借助 Flink 优秀的管道能力和丰富的上下游生态，支持捕获多种数据库的变更，并将这些变更实时同步到下游存储。目前，Flink CDC 的上游已经支持了 MySQL、MariaDB

overfit同步小助手 2024-09-24 12:03:46 0 收藏

spark-scala使用与安装（一）

Scala是一门多范式的编程语言，一种类似java的编程语言，设计初衷是实现可伸缩的语言、并集成面向对象编程和函数式编程的各种特性。Scala运行于Java平台（Java虚拟机），并兼容现有的Java程序。

overfit同步小助手 2024-09-24 12:03:37 0 收藏

全能型AI vs专业型AI：谁主沉浮？

你是否听说过即将到来的AI革命？OpenAI的"草莓"模型即将在今年秋季问世，它不仅能解决复杂的数学问题，还能为你制定营销策略。这是否意味着AI正在向"全能型"发展？专业型AI是否即将成为历史？让我们一起深入探讨这个激动人心的话题！

overfit同步小助手 2024-09-24 12:01:40 0 收藏

Elasticsearch架构原理快速了解

介绍Elasticsearch（ES）的核心概念、工作原理、写入和读取过程以及提高数据可用性和高并发性能的方法。

overfit同步小助手 2024-09-24 11:02:33 0 收藏

大数据-137 - ClickHouse 集群表引擎详解2 - MergeTree 存储结构一级索引跳数索引

ClickHouse的稀疏索引与Kafka的稀疏索引不同，可以由用户自由组合多列，因此也要格外注意不要加入太多索引列，防止索引数据过于稀疏，增大存储和查找成本。MergeTree 的分区目录在数据写入过程中被创建，不同的批次写入数据属于同一分区，也会生成不同的目录，在之后某个时刻再合并（写入后10-

overfit同步小助手 2024-09-24 10:03:44 0 收藏

大数据新视界 --大数据大厂之 Vue.js 与大数据可视化：打造惊艳的数据界面

本文深入探讨 Vue.js 在大数据可视化中的应用。介绍了其优势，如数据驱动视图更新和组件化开发，以及与 Echarts、D3.js、Highcharts、Leaflet 等可视化工具结合。还阐述了性能优化策略，包括懒加载数据、虚拟滚动、代码分割和缓存策略。通过医疗、交通、教育、环保等实际案例分析，

overfit同步小助手 2024-09-24 10:03:16 0 收藏

大数据Flink（一百二十三）：五分钟上手Flink MySQL连接器

由于商品名称及商品价格数据存储在另一张维度表 dimension_table中，我们需要将结果视图和 dimension_table进行JOIN操作，并将「商品销售量」、「商品价格」相乘计算出「商品销售额」，并提取结果中的商品可读名称信息作为结果表。本场景将以阿里云实时计算Flink版为基础，使用F

overfit同步小助手 2024-09-24 06:03:43 0 收藏

大数据技术进阶-spark的分布式join策略选择（附实例）

不论是shuffle join还是broadcast join，一旦数据分发完毕，理论上可以采用HJ、SMJ、NLJ这3种实现机制中的任意一种，完成Executors内部的数据关联。因此，两种分发模式，与三种实现机制，组合起来，共有6种分布式join策略。对于等值关联，spark sql优先考虑采用

overfit同步小助手 2024-09-24 05:03:51 0 收藏

恢复已删除文件工具之11 个最佳恢复文件工具

在当今的数字时代，数据是最重要的ost 无论是个人使用还是商业运营，文件都是宝贵资产。无意中删除重要文件可能会导致巨大的压力和潜在的损失。这就是“恢复已删除文件”工具发挥作用的地方。这些工具旨在扫描存储设备，识别可恢复文件并将其恢复到原始状态。无论是由于意外删除、软件故障还是硬件故障，拥有可靠的文件

overfit同步小助手 2024-09-24 04:03:44 0 收藏

Hadoop之HDFS读写流程

介绍了hadoop的HDFS的详细读写流程

overfit同步小助手 2024-09-24 04:03:35 0 收藏

2023-2024华为ICT大赛中国区实践赛云赛道全国总决赛理论部分真题

本文为2023-2024华为ICT大赛中国区全国总决赛实践赛云赛道理论部分考试真题，涵盖大数据模块3题、AI模块9题、云计算模块8题。

overfit同步小助手 2024-09-24 02:01:34 0 收藏

【Flink】集群架构

在Flink中这里说的资源主要是TaskManager节点上的Task Slot计算资源，Flink中每个提交的任务最终会转换成task，每个task需要发送到TaskManager 上的slot中执行（slot是资源调度最小的单位），Flink为不同的环境和资源提供者（例如：Yarn/Kubern

overfit同步小助手 2024-09-24 01:03:43 0 收藏

玩转大数据22：常见的关联规则挖掘算法

关联规则挖掘是数据挖掘中的一种重要技术，主要用于发现数据集中项之间的有趣关系。关联规则挖掘在许多领域都有广泛的应用，如市场篮子分析、推荐系统等。常见的关联规则挖掘算法包括Apriori算法和FP-Growth算法。

overfit同步小助手 2024-09-23 23:04:02 0 收藏

一枝独秀，基于区块链共益型短视频平台享视，真的能抗衡各大短视频平台吗

因此，我们这种对共益企业有着深入研究和独到见解，甚至能够进一步完善和定义共益企业概念的资深创业团队，有着共创的初心，有着共益的决心，有着共享的基因，同时还有十数年连续创业经验，有着强大的技术团队，有着充实的资本积累，正好响应时代召唤，英雄用武正当时。但时至今日，共益企业发展仍处初级阶段，而且只强调要

overfit同步小助手 2024-09-23 19:04:54 0 收藏