大数据 - overfit.cn

DataGrip远程连接Hive

#学会用datagrip连接hive

overfit同步小助手 2024-10-18 17:03:49 0 收藏

Kafka中，如何配置和使用消费者群组？

在 Apache Kafka 中，消费者群组（Consumer Group）是一组订阅相同主题的消费者实例。消费者群组的主要目的是实现消息的共享消费，即一个主题的消息会被分发给群组内的不同消费者，而不是所有消费者都接收所有消息。

overfit同步小助手 2024-10-18 17:03:17 0 收藏

Flink CEP原理与代码实例讲解

随着大数据时代的到来，实时数据处理成为了企业级应用的关键需求。在金融、物联网、电信等行业，实时处理和分析数据对于决策制定和业务优化至关重要。Apache Flink作为一款高性能的流处理框架，提供了强大的实时事件处理能力，其中Flink CEP（Complex Event Processing）是其

overfit同步小助手 2024-10-18 16:03:37 0 收藏

Hadoop

Hadoop 是处理大规模数据的强大工具，它通过 HDFS 提供分布式存储，通过 MapReduce 实现分布式计算，通过 YARN 管理资源，构成了一个高度可扩展的分布式系统。尽管 Hadoop 由于其批处理特点不适用于所有场景，但它在大数据领域依然具有不可替代的重要地位，尤其是在数据湖和批处理任

overfit同步小助手 2024-10-18 15:03:42 0 收藏

Kafka Tool 2.0.8：Kafka管理的利器

Kafka Tool 2.0.8：Kafka管理的利器 KafkaTool2.0.8资源项目地址: https://gitcode.com/R

overfit同步小助手 2024-10-18 15:03:24 0 收藏

大模型实战一、Ollama+RagFlow 部署本地知识库

通过以上步骤，你已经成功在 Windows 系统上通过 Docker 部署了一个本地化的大模型知识库，结合 RagFlow 和 Ollama，安装了通义千问2 7B 模型和中文 Embedding 模型，构建了一个支持中文问答的系统。这种设置适用于企业内部知识管理、自动化客服、智能问答等场景。

overfit同步小助手 2024-10-18 13:03:36 0 收藏

springboot基于Hadoop的NBA球员大数据分析与可视化(源码+爬虫可视化+文档+调试)

开发语言：Java框架：springbootJDK版本：JDK1.8服务器：tomcat7数据库：mysql数据库工具：Navicat11开发软件：eclipse/myeclipse/ideaMaven包：Maven本系统是基于B/S架构的网站系统，分为系统管理员和用户两大部分。它的主要功能包括系统

overfit同步小助手 2024-10-18 12:03:45 0 收藏

Docker 部署 Kafka 集群详解教程

Kafka 是一个分布式流处理平台，广泛用于构建实时数据管道和流应用。它能够处理高吞吐量的数据，并支持实时数据的发布和订阅。在本文中，我们将详细介绍如何使用 Docker 来部署 Kafka 集群，包括 Kafka 的选举原理。

overfit同步小助手 2024-10-18 11:03:42 0 收藏

数据仓库建设方案

产生的影响，需要具体到，是新增一条数据，还是修改一条数据，并且需要明确新增的内容或者是修改的逻辑。DWS层为公共汇总层，会进行轻度汇总，粒度比明细数据稍粗，基于DWD层上的基础数据，整合汇总分析某一个主题域的服务数据，一般是宽表。该层一般保持和ODS层一样的数据粒度，并提供一定的数据质量保证。D

overfit同步小助手 2024-10-18 11:03:32 0 收藏

大数据新视界 --大数据大厂之数据驱动决策：如何利用大数据提升企业竞争力

文章阐述通用电气和 IBM Watson Health 利用大数据提升效率和服务质量的案例，分析大数据时代企业面临的数据安全、质量及人才短缺挑战，并给出 Java 代码示例和应对策略。强调数据驱动决策及 MongoDB 的作用，呼吁企业拥抱大数据时代以提升竞争力。

overfit同步小助手 2024-10-18 11:03:20 0 收藏

Apache Flink简单示例以及连接kafka消费数据

在 IDE 中创建一个 Java 类，编写一个简单的 Flink 程序，计算从 socket 输入的词频。使用 Flink 连接 Kafka，从中消费数据并进行简单的处理。

overfit同步小助手 2024-10-18 10:03:43 0 收藏

RabbitMQ

极端情况就是消费者一直无法执行成功，那么消息requeue就会无限循环，导致mq的消息处理飙升，带来不必要的压力，当然，上述极端情况发生的概率还是非常低的，不过不怕一万就怕万一。不过需要注意的是，交易服务并不知道用户会在什么时候支付，如果查询的时机不正确（比如查询的时候用户正在支付中），可能查询到的

overfit同步小助手 2024-10-18 09:03:39 0 收藏

Eureka注册中心

随着微服务的流⾏与流量的激增, 机器规模逐渐变⼤, 并且机器会有频繁的上下线⾏为, 这种时候需要运维⼿动地去维护这个配置信息是⼀个很⿇烦的操作. 所以开发者们开始希望有这么⼀个东西,它能维护⼀个服务列表, 哪个机器上线了,哪个机器宕机了, 这些信息都会⾃动更新到服务列表上, 客⼾端拿到这个列表, 直

overfit同步小助手 2024-10-18 08:03:34 0 收藏

【大数据】降维算法

降维算法是机器学习和数据挖掘中常用的技术，旨在减少数据集中的特征数量，同时尽可能保留原始数据的重要信息。降维可以分为线性和非线性两种类型。线性降维方法包括主成分分析（PCA）、线性判别分析（LDA）等，而非线性降维方法包括核主成分分析（Kernel PCA）、t分布随机邻域嵌入（t-SNE）等。

overfit同步小助手 2024-10-18 07:03:49 0 收藏

kafka单条消息过大发送失败

生产者尝试发送到Kafka的消息在序列化后大小超过了Kafka配置中的参数的限制

overfit同步小助手 2024-10-18 06:03:49 0 收藏

Flink消费Kafka实时写入Doris

通过FileBeat采集日志信息到Kafka，再通过Flink消费Kafka实时写入Doris。

overfit同步小助手 2024-10-18 06:03:14 0 收藏

2. PySpark的HDFS和MySQL读写

集群主节点IP地址为：192.168.126.10。先初始化SparkSession，Spark master的默认端口是7077。再读取HDFS数据，HDFS的端口是9000，在HDFS系统的/data/目录下存放了三个数据集：ratings.csv，movies.csv，tags.csv。先读取

overfit同步小助手 2024-10-18 04:03:42 0 收藏

大数据-168 Elasticsearch 单机云服务器部署运行详细流程

Elasticsearch是一个分布式全文搜索引擎，支持单节点模式（Single-Node Model）和集群模式（Cluster Model）部署，一般来说，小公司的业务场景往往使用Single-Node Mode部署即可。我们需要根据实际的情况进行修改，默认都是1G，单机1G内存，启动会占用70

overfit同步小助手 2024-10-18 04:03:27 0 收藏

RabbitMQ简介及安装类

RabbitMQ官⽹: RabbitMQ: One broker to queue them all | RabbitMQRabbitMQ是采⽤Erlang语⾔实现AMQP(Advanced Message Queuing Protocol,⾼级消息队列协议)的消息中间件,它最初起源于⾦融系统领域

overfit同步小助手 2024-10-18 03:04:07 0 收藏

如何安装部署kafka

安装和部署需要以下几个步骤，包括下载 Kafka、配置 ZooKeeper（或者使用 Kafka 自带的 Kafka Raft 模式替代 ZooKeeper），以及启动 Kafka 服务。以下是一个但基于 Linux 的典型安装流程，可以根据需要改装到其他操作系统。

overfit同步小助手 2024-10-18 03:04:03 0 收藏