大数据 - overfit.cn

探索Spark应用的优雅架构：spark-basic-structure项目深度解析

探索Spark应用的优雅架构：spark-basic-structure项目深度解析 spark-basic-structure Example of one possible way of structuring a Spark

overfit同步小助手 2024-09-17 07:03:59 0 收藏

Apache Metron Bro Plugin Kafka 使用教程

Apache Metron Bro Plugin Kafka 使用教程 metron-bro-plugin-kafkaApache Metron Bro Kafka Plugin: 是一个开源项目，用于网络安全。它可以帮助开发者处理网络安全事件。适合有网络安全开发经验的开发者。特点：网络安全事件处理

overfit同步小助手 2024-09-17 07:03:52 0 收藏

快手自研Spark向量化引擎正式发布，性能提升200%

通过引入细粒度的FailBack机制，Blaze在翻译过程中遇到暂无Native实现的算子、单个表达式或UDF时，支持算子/单个表达式粒度的回退，能够灵活回退到Spark原生执行。Spark原生执行流程主要依赖于Java虚拟机（JVM）进行任务的执行，尽管JVM在提供跨平台、内存管理等方面有着卓越的

overfit同步小助手 2024-09-17 07:03:39 0 收藏

大数据新视界 --大数据大厂之数据挖掘入门：用 R 语言开启数据宝藏的探索之旅

踏入大数据新视界，R 语言如璀璨魔法钥匙，开启数据宝藏之门。本文深入剖析 R 语言在数据挖掘中的非凡魅力与优势，涵盖丰富包与函数库、强大可扩展性及惊艳的数据可视化。详述常见数据挖掘算法及生动案例，从决策树到随机森林等。深度洞察数据挖掘技术未来趋势，包括自动化智能化、深度学习广泛应用等。呈现 R 语言

overfit同步小助手 2024-09-17 07:03:32 0 收藏

Kafka 如何保证消息不丢失

对 Kafka 集群的关键指标进行监控，如副本同步状态、消息堆积等，及时发现并处理可能导致消息丢失的异常情况，并配置告警机制通知相关人员。- 例如，设置 `acks=all` 表示只有当所有参与复制的分区副本都收到消息时，才向生产者确认成功写入，从而确保消息不会丢失。- 从副本会不断地从主副本同步数

overfit同步小助手 2024-09-17 06:03:38 0 收藏

大数据Flink（一百一十四）：PyFlink的作业开发入门案例

编写Flink程序，读取表中的数据，并根据表中的字段信息进行统计每个单词出现的数量。编写Flink程序，接收socket的单词数据，并以逗号进行单词拆分打印。注意：socketTextStream后的ip是云服务器ecs的公网ip。注意read_text_file后的地址要与实际地址对应。安装nc:

overfit同步小助手 2024-09-17 05:03:49 0 收藏

kubernetes集群下部署kafka+zookeeper单机部署方案

overfit同步小助手 2024-09-17 05:03:44 0 收藏

pyflink的窗口

窗口（Window）是 Flink 处理无界数据流的核心技术，它将无限的数据流划分为有限的块，这样可以对这些块进行聚合、计数等操作。滚动窗口（Tumbling Window）：将数据流划分为不重叠的固定长度时间段。滑动窗口（Sliding Window）：将数据流划分为固定长度的时间段，这些时间段可

overfit同步小助手 2024-09-17 05:03:39 0 收藏

SpringCloud之二注册中心（Eureka）

本文详细介绍了如何使用Spring Cloud Eureka搭建服务注册中心，并实现服务之间的模块调用和负载均衡。通过实例演示了如何配置Eureka Server和客户端，如何实现服务间的互相调用。

overfit同步小助手 2024-09-17 04:03:53 0 收藏

基于RabbitMQ原理的分布式消息队列系统

RabbitMQ是实现了高级消息队列协议（AMQP）的开源消息代理软件（亦称面向消息的中间件）。异步处理无需即时返回且耗时的操作，提高系统吞吐量。解耦生产者和消费者，提高系统灵活性。实现分布式系统的集成。RabbitMQ实际上是实现了一个基于AMQP的生产者消费者模型。解耦合。并发处理。支持忙闲不

overfit同步小助手 2024-09-17 04:03:49 0 收藏

大数据-129 - Flink CEP 详解 Complex Event Processing - 复杂事件处理

Flink CEP（Complex Event Processing）是Apache Flink的一个组件，用于处理复杂事件流。它允许用户基于流数据定义模式，并检测符合这些模式的事件序列。Flink CEP适用于实时流数据处理中的模式匹配任务，如欺诈检测、设备监控、网络入侵检测等。

overfit同步小助手 2024-09-17 04:03:23 0 收藏

RabbitMQ简介

RabbitMQ简介。

overfit同步小助手 2024-09-17 04:03:13 0 收藏

浅谈电商数据采集重要的一环：数据清洗

数据清洗，顾名思义，是指按照预设规则对采集到的原始数据进行筛查、修正和整理的过程。它旨在消除数据中的无效、重复、错误等杂质，确保数据的准确性、完整性和一致性。在电商领域，数据清洗对于提升数据质量、优化业务流程、辅助决策制定等方面具有不可估量的价值。

overfit同步小助手 2024-09-17 03:03:48 0 收藏

图搜图(图片转向量)

图搜图，图片转向量

overfit同步小助手 2024-09-17 02:03:52 0 收藏

集群安装zookeeper&kafka

前提概要：以JDK1.8，zk3.5.7,kafka2.4.1为例，在三台节点上安装。

overfit同步小助手 2024-09-17 02:03:47 0 收藏

基于Hadoop的热点新闻分析系统

项目内容：本系统拥有管理员和用户两个模块，主要具备有系统首页、个人中心、用户管理、新闻类型管理、主题标签管理、热点新闻管理、新闻评分管理、新闻资讯管理、系统管理等功能模块。开发技术：Python django Hadoop scrapy mysql。基于Hadoop的热点新闻分析系统。包含源码➕数据

overfit同步小助手 2024-09-17 02:03:39 0 收藏

【大数据】LOF算法

LOF算法，全称为局部异常因子（Local Outlier Factor）算法，是一种用于异常检测的无监督学习算法。该算法通过比较数据点与其邻居的局部密度差异来识别异常值。在LOF算法中，异常值被定义为那些密度显著低于其邻居的点。

overfit同步小助手 2024-09-17 01:03:51 0 收藏

超详细Python教程——Hive简介

Hive是 Facebook 开源的一款基于 Hadoop 的数据仓库工具，目前由 Apache 软件基金会维护，它是应用最广泛的大数据处理解决方案，它能将 SQL 查询转变为 MapReduce（Google提出的一个软件架构，用于大规模数据集的并行运算）任务，对 SQL 提供了完美的支持，能够非

overfit同步小助手 2024-09-17 01:03:46 0 收藏

Hive SQL 分组与连接操作详解

Group By语句通常会和聚合函数一起使用，按照一个或者多个列对结果进行分组，然后对每个组执行聚合操作。

overfit同步小助手 2024-09-17 01:03:37 0 收藏

zookeeper命令及 ACL控制

登录zkCli.sh -server 192.168.58.81:2128 登录ipzkCli.sh 登录本机关闭会话 close帮助文档 help让zk数据发生变化都是一次事务create创建create /aaa 创建持久节点create -e /aaa/bb

overfit同步小助手 2024-09-17 00:04:05 0 收藏