大数据 - overfit.cn

什么是Power BI

BI管理员：管理Power BI的部署、维护和安全性，包括用户管理、数据源管理和报表发布等，以保证Power BI的正常运行和数据的安全性。数据分析师：使用Power BI进行数据分析和可视化，包括数据的导入、清洗、转换、建模和报表设计等，以实现数据的探索和发现。IT管理员：管理Power BI所依

overfit同步小助手 2023-11-08 00:03:25 0 收藏

Python大数据之PySpark(四)SparkBase&Core

executor-memory 默认1G，Memory per executor (e.g. 1000M, 2G) (Default: 1G) ，每个executour的内存。–executor-memory 默认1G，Memory per executor (e.g. 1000M, 2G)

overfit同步小助手 2023-11-07 22:03:40 0 收藏

hbase和aerospike基础概念及所对应的python包API使用

column family:column name：列族名和列名。column family:列族名。row1:行键(即Row Key)table name：表名。value：插入列的值。

overfit同步小助手 2023-11-07 21:03:23 0 收藏

大数据学习 -- 利用Java API 将文件写入HDFS

利用Java API写入HDFS文件

overfit同步小助手 2023-11-07 20:03:40 0 收藏

Flink on yarn 加载失败plugins失效问题解决

flink 任务运行在yarn集群,plugins加载失效问题

overfit同步小助手 2023-11-07 15:03:40 0 收藏

Flink之FileSink将数据写入parquet文件

Flink写入数据到Parquet文件

overfit同步小助手 2023-11-07 14:03:37 0 收藏

[SpringCloud] Eureka 与 Ribbon 简介

Ribbon 默认是采用懒加载，即第一次访问时才会去创建 LoadBalanceClient，请求时间会很长。Ribbon 的负载均衡规则是一个叫做 IRule 的接口来定义的，每一个子接口都是一种规则。（比如获取 UserService 的服务列表，内含 2 个服务），然后在。默认情况下，使用的是

overfit同步小助手 2023-11-07 13:03:48 0 收藏

Zookeeper-JavaApI操作

Curator 是 Apache ZooKeeper 的Java客户端库。原生Java APIZkClientCuratorCurator 项目的目标是简化 ZooKeeper 客户端的使用。Curator 最初是 Netfix 研发的,后来捐献了 Apache 基金会,目前是 Apache 的顶级

overfit同步小助手 2023-11-07 12:03:49 0 收藏

运营商大数据获客：电销数据资源企业要实现精准获客金融贷款行业

目前传统的电销数据资源存在的问题也很明显，尤其是表现在金融贷款，教育培训，装修设计，房产保险这几个行业，在各行各业竞争激烈的情况下面，传统的公海数据资源存在被反复利用过度营销的情况，所以说电销数据资源的时效性，也就是实时的电销数据资源才有意义！如果你想获得准确的客户，你必须有信息技术的支持——运营商

overfit同步小助手 2023-11-07 11:03:53 0 收藏

深入理解 Kafka 的 offset、 leo、hw、epoch 概念

Kafka 作为一个分布式的消息中间件，在高性能、高并发、高可用上有杰出的表现，在数据一致性上更是做出了诸多努力

overfit同步小助手 2023-11-07 11:03:43 0 收藏

初学者部署Ambari及通过Ambari安装hadoop相关组件

只有一台虚拟机所以全部采取单节点模式.

overfit同步小助手 2023-11-07 10:03:47 0 收藏

docker拉取镜像错误missing signature key

至此，已经更新完毕，不需要卸载docker其他的东西，有些还要将容器什么的全部卸载，不用。这时候，拉取镜像还是出现了一些问题，docker 在启动容器的时候，报错。linux系统，使用docker拉取的时候，报错如下。说是以前安装的版本低了，需要升级，那就升级吧。就一阵莫名其妙，之前还好好的，突然就

overfit同步小助手 2023-11-07 10:03:34 0 收藏

【Linux】Linux环境下安装RocketMQ（图文解说详细版）

消息队列中间件是分布式系统中的重要组件，主要解决应用耦合、流量削峰等问题，目前主流的 MQ 主要是：RocketMQ、kafka、RabbitMQ等。支持事务型消息（消息发送和 DB 操作保持两方的最终一致性，RabbitMQ 和 Kafka 不支持）支持结合 RocketMQ 的多个系统之间数据最

overfit同步小助手 2023-11-07 09:03:39 0 收藏

16、Flink 的table api与sql之连接外部系统: 读写外部系统的连接器和格式以及JDBC示例（4）

当缓存命中最大缓存行 lookup.partial-cache.max-rows 或当行超过 lookup.partial-cache.expire-after-write 或 lookup.partial-cache.expire-after-access 指定的最大存活时间时，缓存中的行将被设置

overfit同步小助手 2023-11-07 09:03:32 0 收藏

解决：ERROR: Cannot set priority of datanode process 10603

datanode 启动解决

overfit同步小助手 2023-11-07 08:03:40 0 收藏

【超级详细】熟悉Kafka的基本使用方法的实验【Windows】

Kafka 是由 Apache 软件基金会开发的一个开源消息队列平台，它是一种高性能、可扩展、分布式的发布-订阅消息系统。Kafka 的架构被设计为高效、低延迟，并具有高吞吐量、持久性和可靠性。在 Kafka 中，生产者将消息发布到主题(topic)中，消费者则从主题中消费消息，使用者可以将其看作一

overfit同步小助手 2023-11-07 08:03:36 0 收藏

Spring Boot 整合RabbitMQ

在业务活动期间，由于用户请求量短时间内剧增，可能导致系统压力过大甚至崩溃。通过消息队列实现请求的缓冲。在高并发场景下，系统可以将请求放入消息队列，然后异步处理这些请求，从而平滑系统的处理负载，确保系统的稳定性。

overfit同步小助手 2023-11-07 08:03:18 0 收藏

Hadoop3教程（二十一）：MapReduce中的压缩

主要介绍了MR里压缩的定义、优缺点、常用压缩算法的对比，以及该在什么地方启用压缩，如何启用压缩等

overfit同步小助手 2023-11-07 02:03:48 0 收藏

Hbase基本使用，读写原理，性能优化学习

Apache HBase 是以 hdfs 为数据存储的，一种分布式、可扩展的 NoSQL 数据库每一个 region 维护着 startRow 与 endRowKey，如果加入的数据符合某个 region 维护的rowKey 范围，则该数据交给这个 region 维护。那么依照这个原则，我们可以将数

overfit同步小助手 2023-11-07 02:03:41 0 收藏

Hadoop 分布式集群搭建教程（2023在校生踩坑版）

在Hadoop01节点上执行以下命令，启动HDFS和YARN：bug1：如果出现类似报错。

overfit同步小助手 2023-11-07 01:04:42 0 收藏