大数据 - overfit.cn

大数据电商公司的卓越之路及api如何应用

电商平台API目前支持以下基本接口：

overfit同步小助手 2024-03-06 23:03:32 0 收藏

基于Spark协同过滤的农产品个性推荐系统

本系统是一个基于Python技术栈开发的农产品在线交易平台。通过集成了pyspark、hadoop、django、scrapy、vue、element-plus等多个优秀开源框架，实现了全方位的功能覆盖，并采用了协同过滤算法为用户推荐相关农产品。首先，我们使用Scrapy爬虫框架抓取惠农网站上的农产

overfit同步小助手 2024-03-06 22:03:39 0 收藏

大数据6大维度透视，了解一个企业的真实情况

每次在评估一个企业的综合实力和市场地位时，投资者、分析师和业界专家会从多个维度进行深入分析。这些维度不仅反映了企业的当前状况，还能为预测其未来发展趋势提供线索。本文将详细探讨这几个关键维度，以帮助读者更全面地理解企业评估的多维度视角。

overfit同步小助手 2024-03-06 21:03:24 0 收藏

Flink StreamGraph生成过程

在 Flink 中，StreamGraph 是数据流的逻辑表示，它描述了如何在 Flink 作业中执行数据流转换。StreamGraph 是 Flink 运行时生成执行计划的基础。使用DataStream API开发的应用程序，首先被转换为 Transformation，再被映射为StreamGra

overfit同步小助手 2024-03-06 18:03:50 0 收藏

AI大语言模型：SupervisedFineTuning的基础理论

1. 背景介绍1.1 人工智能的发展随着计算机技术的飞速发展，人工智能（AI）已经成为了当今科技领域的热门话题。从图像识别、自然语言处理到自动驾驶等领域，AI技术正逐渐改变着我们的生活。在这个过程中，大规模预训练的语言模型（如GPT-3、BERT等）在自然语言处理任务中取得了显著的成果，为AI领域

overfit同步小助手 2024-03-06 18:01:34 0 收藏

Flink中StateBackend（工作状态）与Checkpoint（状态快照）的关系

只有基于 RocksDB state backend的状态快照才支持增量checkpoint，基于heap的并不支持默认情况下 checkpoint 是禁用的，需要手动开启：Flink状态分为Keyed State和非keyed State:Keyed State，可以使用RocksDB state

overfit同步小助手 2024-03-06 17:03:27 0 收藏

Hadoop运行环境搭建

（3）source一下/etc/profile文件，让新的环境变量PATH生效。（1）bin目录：存放对Hadoop相关服务（HDFS,YARN）进行操作的脚本。（1）新建/etc/profile.d/my_env.sh文件。（2）etc目录：Hadoop的配置文件目录，存放Ha

overfit同步小助手 2024-03-06 16:03:51 0 收藏

想从事大数据方向职场小白看过来，数据方面的一些英文解释

—（Not Only SQL）不仅仅是 SQL。是一种广义的数据库管理系统范畴，与传统的关系型数据库管理系统（RDBMS）相对。NoSQL数据库的设计目标是解决关系型数据库在大规模数据集和高并发环境下的一些限制和挑战。 NoSQL数据库主要指文档、列、图和键值。没有表。ESB代表企业服务总线（E

overfit同步小助手 2024-03-06 16:03:28 0 收藏

航空航天大数据：实时数据处理与分析技术

1.背景介绍航空航天领域的大数据技术已经成为一个热门的研究和应用领域，它涉及到的数据量巨大，涉及到的实时性要求高，涉及到的计算复杂度也非常高。在这篇文章中，我们将从以下几个方面进行探讨：航空航天大数据的背景和发展趋势航空航天大数据的核心概念和技术航空航天大数据的实时数据处理与分析技术航空航天大数据的

overfit同步小助手 2024-03-06 15:03:32 0 收藏

滥用生成式人工智能的安全威胁的应对

以ChatGPT为代表的生成式人工智能（AI Generated Content, AIGC）给人类社会带来了巨大的技术红利，为第四次工业革命提供了新动能。但也逐渐暴露出一系列安全风险。尤其是2022年下半年以来，暗网涌现出WormGPT、PoisonGPT、EvilGPT等一批恶意人工智能大模型，

overfit同步小助手 2024-03-06 14:07:45 0 收藏

Flink项目实战篇基于Flink的城市交通监控平台（下）

Flink项目实战篇基于Flink的城市交通监控平台（上）Flink项目实战篇基于Flink的城市交通监控平台（下）

overfit同步小助手 2024-03-06 14:03:57 0 收藏

【Flink入门修炼】1-4 Flink 核心概念与架构

前面几篇文章带大家了解了 Flink 是什么、能做什么，本篇将带大家了解 Flink 究竟是如何完成这些的，Flink 本身架构是什么样的，让大家先对 Flink 有整体认知，便于后期理解。

overfit同步小助手 2024-03-06 12:03:44 0 收藏

HBase的数据聚合与统计分析案例

1.背景介绍在大数据时代，HBase作为一种高性能、可扩展的列式存储系统，已经成为许多企业和组织的首选。HBase可以存储大量数据，并提供快速的读写操作。然而，在实际应用中，我们经常需要对HBase中的数据进行聚合和统计分析。这篇文章将讨论HBase的数据聚合与统计分析案例，并提供一些最佳实践和技巧

overfit同步小助手 2024-03-06 12:03:32 0 收藏

DevOps学习 | 如何应对IT服务交付中的问题？

DevOps提供的一致容器镜像，持续集成，持续交付，持续部署，持续测试可以更快地交付客户价值。

overfit同步小助手 2024-03-06 11:06:17 0 收藏

大数据Hadoop生态圈

存储： HDFS(namenode,datanode)计算：MapReduce(map+reduce，基于磁盘)便于用sql操作：Hive(核心 metastore，存储这些结构化的数据)，同类的还有Impala，hbase等基于yaml的资源调度hive ：通过 HQL访问，适合执行ETL，报表查

overfit同步小助手 2024-03-06 09:03:49 0 收藏

AI大语言模型与知识图谱融合：引领未来技术革命

1.背景介绍在过去的几年中，人工智能(AI)已经从一个科幻概念转变为现实生活中的一种强大工具。特别是在自然语言处理(NLP)领域，AI的发展已经达到了令人惊叹的程度。大语言模型，如OpenAI的GPT-3，已经能够生成令人难以区分的人类文本，而知识图谱则为AI提供了丰富的结构化知识，使其能够更好地理

overfit同步小助手 2024-03-06 07:01:21 0 收藏

flink重温笔记（九）：Flink 高级 API 开发——flink 四大基石之WaterMark（Time为核心）

当 flink 以 EventTime 模式处理流数据时，它会根据数据里的时间戳来处理基于时间的算子。但是由于网络、分布式等原因，会导致数据乱序的情况。结论：只要使用 event time，就必须使用 watermark，在上游指定，比如：source、map算子后。Watermark 的核心本质

overfit同步小助手 2024-03-06 03:03:26 0 收藏

[Java 探索之路～大数据篇] 新时代大数据流处理入门指南

任何类型的数据都可以形成一种事件流。信用卡交易、传感器测量、机器日志、网站或移动应用程序上的用户交互记录，所有这些数据都形成一种流。数据可以被作为无界或者有界流来处理。事件驱动型应用是一类具有状态的应用，它从一个或多个事件流提取数据，并根据到来的事件触发计算、状态更新或其他外部动作。事件驱动

overfit同步小助手 2024-03-06 01:03:39 0 收藏

总结—elasticsearch启动失败的几种情况及解决

总结elasticsearch启动失败的几种情况及解决

overfit同步小助手 2024-03-05 23:06:24 0 收藏

52、Flink的应用程序参数处理-ParameterTool介绍及使用示例

系统介绍某一知识点，并辅以具体的示例进行说明。1、Flink 部署系列本部分介绍Flink的部署、配置相关基础内容。2、Flink基础系列本部分介绍Flink 的基础部分，比如术语、架构、编程模型、编程指南、基本的datastream api用法、四大基石等内容。3、Flik Table API和S

overfit同步小助手 2024-03-05 22:03:51 0 收藏