大数据 - overfit.cn

大数据技术Hadoop+Spark

MapReduce是一个分布式运算程序的编程框架，核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个Hadoop集群上。Spark 是一种由 Scala 语言开发的快速、通用、可扩展的大数据分析引擎。spark框架包含多个紧密集成的组件，包括Spark S

overfit同步小助手 2024-03-13 17:03:17 0 收藏

浅析大数据汇总

传统，大数据主要关注数据的采集、存储和处理能力。随着互联网的快速发展，用户在互联网上产生了大量的数据，这些数据包括用户行为数据、社交媒体数据、传感器数据等。传统的数据库技术已经无法满足对这些海量数据的存储和处理需求，因此出现了分布式存储和计算技术，如Hadoop、HBase等。这些技术使得大数据的存

overfit同步小助手 2024-03-13 13:03:51 0 收藏

大数据开发（Hadoop面试真题-卷一）

输入分片是将大文件切割成适合并行处理的小块数据，每个小块数据叫做一个输入分片。作为MapReduce任务的基本单元，输入分片使得多个计算节点可以同时处理不同的输入数据，并发执行任务。这样可以提高整体任务的执行效率和并发度。数据倾斜指在分布式计算环境下，某个或几个计算节点负责处理的数据量远大于其它计算

overfit同步小助手 2024-03-13 13:03:34 0 收藏

Flink介绍

Flink 可以处理实时产生的事件流数据，并实时进行事件处理和响应，用于物联网、智能监控等实时事件处理场景。例如，如果要将数据写入到 Kafka 主题中，可以使用 FlinkKafkaProducer，如果要将数据写入到文件中，可以使用 TextOutputFormat。：Flink 可以与机器学习

overfit同步小助手 2024-03-13 09:03:29 0 收藏

大数据职业技能大赛样题(数据采集与实时计算：使用Flink处理Kafka中的数据)

另外对于数据结果展示时，不要采用例如：1.9786518E7的科学计数法）。

overfit同步小助手 2024-03-13 09:03:21 0 收藏

【sentry 到 ranger 系列】二、Sentry 的 Hadoop 鉴权插件

Sentry 的 Namenode 插件如何更新权限信息和提供鉴权能力

overfit同步小助手 2024-03-13 08:03:35 0 收藏

AI大语言模型在电商用户情感营销中的应用

1. 背景介绍1.1 电商用户情感营销的重要性随着互联网的普及和电子商务的快速发展，电商平台竞争愈发激烈。为了在竞争中脱颖而出，吸引和留住用户，电商平台需要采取更加精细化的营销策略。其中，用户情感营销成为了一种有效的手段。通过挖掘用户的情感需求，为用户提供个性化的服务和产品，从而提高用户

overfit同步小助手 2024-03-13 06:01:22 0 收藏

保障资产安全与减少损失：易点易动对固定资产进行全面监控

综上所述，传统的手工记录资产管理方式存在诸多局限性，包括容易出错、缺乏实时监控和资产跟踪等问题。为了克服这些局限性，现代企业越来越多地采用基于技术的资产管理系统，如易点易动固定资产管理系统，利用RFID通道门和RFID标签等技术实现全面监控和管理固定资产，提高资产安全性和减少损失。在手工记录的情况下

overfit同步小助手 2024-03-13 05:07:08 0 收藏

Flink StreamTask启动和执行源码分析

Flink的StreamTask的启动和执行是一个复杂的过程，涉及多个关键步骤。初始化：StreamTask的初始化阶段涉及多个任务，包括Operator的配置、task特定的初始化以及初始化算子的State等。在这个阶段，Flink将业务处理函数抽象为operator，并通过operatorCha

overfit同步小助手 2024-03-13 03:03:42 0 收藏

大数据之flume（一）

flume是一个分布式、高可用、高可靠的海量日志采集、聚合、传输系统，支持在日志系统中定制各种数据发送方从而收集数据，并提供数据简单处理能力并传到各种数据接收方。flume设计原理是基于数据流的，能够将不同数据源的海量日志进行高效收集、聚合、移动、存储，能做到近似实时。自定义拦截器自定义source

overfit同步小助手 2024-03-13 03:03:20 0 收藏

git远程仓库配置

如果是第二次进行操作，需要先clone项目到本地，修改后再上传到git。修改clone的项目完毕之后，在仓库目录下执行下面命令:2. 本地项目上传新建一个仓库打开我们的项目，此时项目中是没有 .git 文件的在你的项目文件夹里面【鼠标右击】弹出菜单在【鼠标右击】弹出的菜单中，点击【Git Bash

overfit同步小助手 2024-03-13 01:04:39 0 收藏

大数据智能化-长视频领域

随着数字化与AI时代的到来，长视频领域的发展迎来了新的机遇和挑战。在这一背景下，大数据智能化技术的应用成为长视频行业提升用户体验、优化运营管理的重要手段之一。本文将从优爱腾3大长视频背景需求出发，分析静态资源CDN、视频文件存储与分发、UGC/PGC/AIGC内容管理与应用、用户APP埋点数据分析等

overfit同步小助手 2024-03-13 01:03:57 0 收藏

使用 SPL 高效实现 Flink SLS Connector 下推

在Flink消费SLS数据过程中会全量消费Logstore数据，对于分析不关注的行或列数据，同样会有网络和计算开销，基于此，阿里云Flink SLS Connector 进行了升级，支持通过配置SPL实现SLS数据源的行过滤、列裁剪等下推，在过滤场景下可以有效地减少了网络与计算开销。

overfit同步小助手 2024-03-13 01:03:24 0 收藏

LNS（大规模大邻域搜索）（含AI创作）（背景与VNS相同）

一个好的初始解可以加速算法的收敛，而一个差的初始解可能需要更多的搜索时间才能找到更优的解。：在LNS的搜索过程中，通常会对当前解进行扰动以引入新的变化，并尝试在扰动后的解空间中寻找更优的解。通过使用大型的邻域结构和灵活的搜索策略，LNS能够在相对较短的时间内找到高质量的解，因此在实际应用中具有广泛的

overfit同步小助手 2024-03-13 01:01:31 0 收藏

windows搭建pyspark环境详细教程

将hadoop.dll和winutils.exe均拷贝到D:\hadoop-2.7.1\bin下和C:\Windows\System32下（两个文件各拷贝一份）此时bin目录（D:\hadoop-2.7.1\bin）下可能没有hadoop.dll及winutils.exe文件，接下来安装py4j,在

overfit同步小助手 2024-03-13 00:03:11 0 收藏

HBase的数据库与HadoopEcosyste

1.背景介绍HBase是一个分布式、可扩展、高性能、高可用性的列式存储系统，基于Google的Bigtable设计。HBase是Hadoop生态系统的一个重要组成部分，与Hadoop HDFS、MapReduce、ZooKeeper等产品密切相关。本文将从以下几个方面进行深入探讨：背景介绍核心概念与

overfit同步小助手 2024-03-12 22:03:51 0 收藏

iceberg1.4.2 +minio通过spark创建表，插入数据

iceberg 是一种开放的表格式管理，解决大数据数据中结构化，非结构化和半结构化不统一的问题。主要是通过对表的管理实现增删改查，同时支持历史回滚（版本旅行）等操作。下层支持hadoop，s3,对象存储，上层支持hive，spark，flink 等应用。实现在中间把两部分隔离开来，实现一种对接和数据

overfit同步小助手 2024-03-12 22:03:45 0 收藏

筑牢安全防火线，信捷科技守护贵阳公共交通平安不停歇

自2009年成立以来，信捷科技以“生产安全”作为企业发展的核心理念，把安全工作纳入领导班子工作计划，组织成立消防安全工作领导小组，为应对突发事件及重要设备设施、重大危险源、重大活动制定《贵阳市信捷科技有限公司消防灭火疏散专项应急预案》，按照“属地为主、分级负责、分类指导、综合协调、动态管理”原则，全

overfit同步小助手 2024-03-12 21:07:13 0 收藏

flink消费kafka限制消费速率

overfit同步小助手 2024-03-12 21:03:48 0 收藏

Spark 基础

Spark在2013年加入Apache孵化器项目，之后获得迅猛的发展，并于2014年正式成为Apache软件基金会的顶级项目。Spark生态系统已经发展成为一个可应用于大规模数据处理的统一分析引擎，它是基于内存计算的大数据并行计算框架，适用于各种各样的分布式平台的系统。在Spark生态圈中包含了Sp

overfit同步小助手 2024-03-12 21:03:35 0 收藏