大数据 - overfit.cn

VMware虚拟机中安装Kylin V10 银河麒麟操作系统

随着信息技术的飞速发展，自主可控的操作系统越来越受到重视。本文将介绍Kylin银河麒麟操作系统（简称银河麒麟或KylinOS）以及VMware虚拟机，并详细阐述如何在VMware虚拟机中安装Kylin银河麒麟操作系统。Kylin银河麒麟操作系统，作为中国自主研发的操作系统，旨在满足国家信息安全和自主

overfit同步小助手 2024-08-30 15:03:33 0 收藏

大数据-103 Spark Streaming Kafka Offset管理详解 Scala自定义Offset

上节研究了Spark Streaming 与Kafka的关系，研究了08、10版本的不同的，研究了Producer、KafkaDStream，并且附带实例代码。在 DStream 初始化的时候，需要指定每个分区的Offsets用于从指定位置读取数据读取并处理消息处理完之后存储结果数据用虚线存储和提交

overfit同步小助手 2024-08-30 10:03:37 0 收藏

数据仓库系列8：如何设计一个高性能的数据仓库模型?

基于需求分析,我们可以确定以下核心事实表和维度表:销售事实表(Sales_Fact)客户行为事实表(Customer_Behavior_Fact)库存事实表(Inventory_Fact)时间维度(Time_Dim)产品维度(Product_Dim)客户维度(Customer_Dim)地理维度(Ge

overfit同步小助手 2024-08-30 09:03:17 0 收藏

大数据-106 Spark Graph X 计算学习案例：1图的基本计算、2连通图算法、3寻找相同的用户

上节研究了SparkGraphX基本概念、基础架构等内容，本节研究Spark GraphX的案例，放了3个案例，图的基本计算、连通图算法、寻找相同的用户。图本身是递归数据结构，顶点的属性依赖于它们的邻居的属性，这些邻居的属性又依赖于自己的邻居的属性。所以需要重要的算法都是迭代的重新计算每个顶点的属性

overfit同步小助手 2024-08-30 08:03:24 0 收藏

ElasticSearch(七)— 相关性检索和组合查询

全文检索与数据库查询的一个显著区别，就是它并不一定会根据查询条件做完全精确的匹配。除了模糊查询以外，全文检索还会根据查询条件给文档的相关性打分并排序，将那些与查询条件相关性高的文档排在最前面。相关性( Relevance)或相似性(Similarity)是指两个事物间相互关联的程度，在检索领城特指

overfit同步小助手 2024-08-30 06:03:49 0 收藏

Git 进阶：分支管理与合并冲突处理策略详解

随着项目复杂度的增加，团队协作的需求也越来越高，而 Git 的分支管理机制成为了高效协作的关键。使用分支的主要目的是隔离开发工作，允许团队成员独立地开发新功能或修复错误，同时不影响其他分支的稳定性。对于更复杂的场景，比如如何处理大型项目中的分支策略、如何自动化分支管理流程等，也可以参考更详细的文档和

overfit同步小助手 2024-08-30 06:03:45 0 收藏

储能参与现货电能量-调频辅助服务市场的双层交易决策研究(Matlab代码实现)

当前，随着清洁能源的快速发展和智能电网技术的不断进步，储能技术在电力系统中发挥着越来越重要的作用。储能系统能够在电网负荷波动大、清洁能源波动大的情况下提供灵活的电力调节能力，为电力系统的安全稳定运行提供支持。其中，现货电能量-调频辅助服务市场是储能参与电力市场的重要途径之一。在现货电能量-调频辅助服

overfit同步小助手 2024-08-30 06:03:40 0 收藏

Hadoop 中的大数据技术：调优篇（3）

存储小文件会导致 NameNode 内存消耗过多，因为每个文件都需要按块存储，而每个块的元数据都存储在 NameNode 的内存中。使用 HDFS 存档文件（HAR 文件）来更高效地归档小文件，减少 NameNode 内存使用的同时保持文件的透明访问。结果显示，磁盘的总体混合随机读速度为 220Mi

overfit同步小助手 2024-08-29 13:03:33 0 收藏

实验3-Spark基础-Spark的安装

PYTHONPATH环境变量主要是为了在Python3中引入Pyspark库，对于不同版本的Spark , 其py4j-0.10.7-src.zip文件名是不同的，要进入相应目录 $SPARK_HOME/python/lib/ 下具体查看确定具体名称，再对PYTHONPATH环境变量的相应值加以修改

overfit同步小助手 2024-08-29 12:04:22 0 收藏

Hadoop: Mapreduce了解

Hadoop MapReduce是一个软件框架，用于轻松编写应用程序，这些应用程序以可靠、容错的方式在大型集群（数千个节点）的商用硬件上并行大量数据（数TB数据集）。MapReduce作业通常将输入数据集分割成独立的块，这些块由映射任务以完全并行的方式进行处理。该框架对映射的输出进行排序，然后将其输

overfit同步小助手 2024-08-29 11:04:16 0 收藏

【精选】基于Spark的国漫推荐系统（精选设计产品）

Hadoop实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。HDFS有高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上；而且它提供高吞吐量（high throughput）来访问应用程序的数据，适合那些有着超大数据集（larg

overfit同步小助手 2024-08-29 09:05:01 0 收藏

Flink on Yarn三部曲之一：准备工作

说句实话，如果一个打工人不想提升自己，那便没有工作的意义，毕竟大家也没有到养老的年龄。当你的技术在一步步贴近阿里p7水平的时候，毫无疑问你的薪资肯定会涨，同时你能学到更多更深的技术，交结到更厉害的大牛。推荐一份Java架构之路必备的学习笔记，内容相当全面！！！成年人的世界没有容易二字，前段时间刷抖音

overfit同步小助手 2024-08-29 09:04:23 0 收藏

大数据-104 Spark Streaming Kafka Offset Scala实现Redis管理Offset并更新

上节研究了SparkStreaming Kafka的Offset管理，同时使用Scala实现了自定义的Offset管理。本节继续研究，使用Redis对Kafka的Offset进行管理。Redis 作为一个高效的内存数据库，常用于存储 Spark Streaming 中的 Kafka 偏移量。通过手动

overfit同步小助手 2024-08-29 08:03:17 0 收藏

Spark RPC框架详解

SparkContext构造过程的重要一步，就是Driver、ApplicationMaster以及Executor之间的协调和通信过程，这是基于RPC进行的。这里的Spark RPC是基于Netty的通信过程，而Netty的通信其实是基于Reactor架构进行的，Reactor架构其实是基于Jav

overfit同步小助手 2024-08-29 06:03:56 0 收藏

使用 Elasticsearch 和 LlamaIndex 保护 RAG 中的敏感信息和 PII 信息

在这篇文章中，我们将研究在 RAG（检索增强生成）流程中使用公共 LLMs 时保护个人身份信息 (personal identifiable information - PII) 和敏感数据的方法。我们将探索使用开源库和正则表达式屏蔽 PII 和敏感数据，以及在调用公共 LLM 之前使用本地 LLM

overfit同步小助手 2024-08-29 03:03:52 0 收藏

Flink 实时数仓（十一）【ADS 层搭建】

Flink 实时数仓 ADS 层搭建

overfit同步小助手 2024-08-29 02:03:53 0 收藏

源码讲解kafka 如何使用零拷贝技术（zero-copy）

本文详细讲解零拷贝技术，以及kafka如何使用零拷贝及它的应用场景

overfit同步小助手 2024-08-29 00:03:40 0 收藏

基于SpringBoot+数据可视化+大数据爬虫的亚健康数据可视化统计分析平台设计和实现(源码+LW+部署讲解)

基于大数据的亚健康人群数据可视化是一种利用数据分析和图形展示技术，对大量亚健康人群数据进行整合、分析和呈现的方法。通过收集和处理来自各种来源的数据，该系统能够揭示亚健康状态的分布特征、影响因素和发展趋势，为健康管理和政策制定提供科学依据。在数据可视化方面，系统采用了多种直观的图形展示方式。通过颜色、

overfit同步小助手 2024-08-28 22:03:51 0 收藏

Hudi最强指南 — Hudi的安装部署（Linux）

随着大数据技术的飞速发展，企业对于数据处理的效率和实时性的要求也越来越高。Hadoop作为大数据领域的领军技术，长久以来一直承载着海量数据的存储和处理任务。然而，传统的Hadoop数据模型在处理更新和删除操作时的局限性，使得它难以满足实时数据湖等复杂场景的需求。正是在这样的背景下，Hudi应运而生。

overfit同步小助手 2024-08-28 21:06:17 0 收藏

分享一些通过合法途径采集电商数据的方式

buyer_order_express 获取购买到的商品订单物流。buyer_order_message 获取购买到的订单买家留言。buyer_order_detail 获取购买到的商品订单详情。seller_order_detail 获取卖出的商品订单详情。item_search_samestyl

overfit同步小助手 2024-08-28 20:03:47 0 收藏