大数据 - overfit.cn

【Hive SQL 每日一题】找出各个商品销售额的中位数

子查询中可以看到，如果总个数为奇数时，那么该组中的中位数有且仅有一个，因为它无论时正序还是逆序排列，中位数的排名都不会发生改变，这种情况时，那么是不是满足条件。这两个函数无法严格的计算出中位数，它们计算的只是一个近似值，意味着和真正的中位数是存在一定差异的，特别是在数据量较少或数据分布不均的情况下。

overfit同步小助手 2024-09-04 00:03:50 0 收藏

美团面试：10Wtps，Kafka为啥那快？如何实现kafka零复制 Zero-copy？

通过对kafak 零拷贝的充分介绍，可以充分展示一下大家雄厚的 “技术肌肉”，让面试官爱到 “不能自已、口水直流”，然后实现”offer直提”。在面试之前，建议大家系统化的刷一波 5000页《尼恩Java面试宝典PDF》，里边有大量的大厂真题、面试难题、架构难题。很多小伙伴刷完后，吊打面试官，大

overfit同步小助手 2024-09-04 00:03:47 0 收藏

探索高效测试：spark-fast-tests 开源项目推荐

探索高效测试：spark-fast-tests 开源项目推荐 spark-fast-testsApache Spark testing helpers (dependency free & works with Scalatest, uTest, and MUnit)项目地址:https://git

overfit同步小助手 2024-09-04 00:03:23 0 收藏

还不懂eureka原理实践，看完这篇你就懂了

Eureka通过集中管理和监控服务的注册和发现，提供了分布式系统中服务调用的可靠性和可用性。它的原理和实践可以帮助开发人员轻松地实现服务发现和负载均衡功能，提高系统的可扩展性和可维护性。Eureka是Netflix开源的一个服务发现框架，被广泛应用于微服务架构中。它通过建立一个注册中心来负责服务的注

overfit同步小助手 2024-09-03 23:03:59 0 收藏

基于大数据爬虫+数据可视化大屏+Java的网络小说阅读交流平台设计和实现(源码+论文+部署讲解等)

阅享小说阅读平台”是一个提供小说阅读服务的在线平台。平台提供大量的小说作品供用户阅读，浏览、搜索。系统主要内容包括用户管理、小说分类管理、小说信息管理、论坛交流、系统管理、我的信息等。系统采用基于Java语言网站开发技术设计的，结合Mysql数据库管理系统对阅享小说阅读平台相关信息进行管理。按照软件

overfit同步小助手 2024-09-03 22:03:42 0 收藏

Kafka Connect for TableStore 使用教程

Kafka Connect for TableStore 使用教程 kafka-connect-tablestore项目地址:https://gitcode.com/gh_mirrors/ka/kafka-connect-tablestore 1. 项目的目录结构及介绍Kafka Connect f

overfit同步小助手 2024-09-03 22:03:37 0 收藏

全国职业院校技能大赛（大数据）2024

大数据应用

overfit同步小助手 2024-09-03 22:03:24 0 收藏

强大的 Go 语言实现的 Apache Kafka 客户端 —— confluent-kafka-go

强大的 Go 语言实现的 Apache Kafka 客户端 —— confluent-kafka-go confluent-kafka-goConfluent's Apache Kafka Golang client项目地址:https://gitcode.com/gh_mirrors/co/con

overfit同步小助手 2024-09-03 21:03:53 0 收藏

数据仓库系列17：元数据管理在数据仓库中的作用是什么?

元数据,顾名思义,就是"关于数据的数据"。它是描述、解释和定位数据的结构化信息。在数据仓库环境中,元数据扮演着至关重要的角色,它就像是数据的"身份证",记录了数据的来源、格式、含义、关系和使用方法等信息。让我们通过一个简单的例子来理解元数据:date DATE,表名: sales_data列名及其数

overfit同步小助手 2024-09-03 21:03:47 0 收藏

推荐系统新星：基于Spark的流式矩阵分解库

推荐系统新星：基于Spark的流式矩阵分解库 streaming-matrix-factorizationDistributed Streaming Matrix Factorization implemented on Spark for Recommendation Systems项目地址:ht

overfit同步小助手 2024-09-03 21:03:21 0 收藏

数据仓库中的表设计模式：全量表、增量表与拉链表

全量表通过保存完整的数据快照确保数据的一致性，增量表则通过记录数据的变化部分优化性能和存储效率，而拉链表则通过维护数据的历史版本满足复杂的分析和审计需求。总的来说，全量表、增量表和拉链表是数据仓库中常见的表设计模式，它们各自针对不同的数据更新场景提供了解决方案，能够有效管理数据的变化并维护历史记录。

overfit同步小助手 2024-09-03 21:03:14 0 收藏

如何评价2023年钉钉杯大学生大数据挑战赛A题？

初赛A：智能手机用户监测近年来，随着智能手机的产生，发展到爆炸式的普及增长，不仅推动了中国智能手机市场的发展和扩大，还快速的促进手机软件的开发。近年中国智能手机市场品牌竞争进一步加剧，中国超越美国成为全球第一大智能手机市场。手机软件日新月异，让人们更舒适的使用手机，为人们的生活带来很多乐趣，也产生了

overfit同步小助手 2024-09-03 20:03:45 0 收藏

Zookeeper 日志输出到指定文件夹，并按照日期轮循输出

overfit同步小助手 2024-09-03 19:03:56 0 收藏

利用python实现flink1.18集群部署-Linux系统

利用python装包能力（pip）轻松实现flink1.18安装，并通过flink参数配置，实现job、task节点配置，实现flink集群部署，并通过flink-python语句，将python程序部署到flink集群运行。

overfit同步小助手 2024-09-03 19:03:20 0 收藏

Hadoop端口号全解析：掌握这些端口，轻松驾驭大数据集群，一文读懂常用端口号及其作用！

MapReduce作业的执行情况主要通过YARN ResourceManager的Web UI（即8088端口）来查看。虽然MapReduce本身不直接提供特定的Web UI端口，但其作业的日志和输出通常会存储在HDFS上，因此与HDFS相关的端口（如50070或9870，取决于Hadoop的版本）

overfit同步小助手 2024-09-03 18:03:57 0 收藏

【Pyspark-驯化】一文搞懂Pyspark中的withColumnRenamed函数的使用技巧

在数据处理过程中，经常需要对列名进行修改以符合特定的命名规范或为了提高可读性。PySpark提供了withColumnRenamed方法，这是一种便捷的方式来重命名DataFrame中的列。withColumnRenamed是PySpark中一个非常实用的功能，它允许用户轻松地重命名DataFram

overfit同步小助手 2024-09-03 18:03:52 0 收藏

大数据知识总结（七）：Spark重要知识汇总

Spark Core（实现了 Spark 的基本功能，包含RDD、任务调度、内存管理、错误恢复、与存储系统交互等模块。数据结构：RDD）Spark SQL（可以使用 SQL操作数据。数据结构：Dataset/DataFrame = RDD + Schema）（用来操作数据流的 API。数据结构：DS

overfit同步小助手 2024-09-03 18:03:18 0 收藏

11.面试题——消息队列RabbitMQ

RabbitMQ是一种开源的消息队列中间件，用于在应用程序之间进行可靠的消息传递。它实现了AMQP（Advanced Message Queuing Protocol）协议，提供了强大的消息处理能力。

overfit同步小助手 2024-09-03 17:03:58 0 收藏

linux安装docker

重新加载docker.service配置文件，使得systemctl识别docker.service。得知docker默认的根目录是 /var/lib/docker。上传docker-26.1.0.tgz到linux服务器。为docker.service添加可执行权限。文件名：docker-26.1

overfit同步小助手 2024-09-03 17:03:36 0 收藏

Flink学习之Flink SQL

启动yarn-session启动Flink SQL客户端测试重启SQL客户端之后，需要重新建表。

overfit同步小助手 2024-09-03 16:03:18 0 收藏