大数据 - overfit.cn

Hive分区表实战 - 单分区字段

本实战演练全面展示了如何在Hive中创建和管理分区表，通过实际操作演示了数据按国别分区存储、加载与查询的全过程。从创建`book`表开始，依次完成了数据文件准备、分区数据加载、分区查看及更新元数据等任务，并进一步演示了分区的增删改查操作，最后通过MySQL查看Hive Metastore中记录的分区

overfit同步小助手 2024-02-18 08:03:46 0 收藏

hive中array相关函数总结

sort_array 函数可以用于对 Array 对象中的元素进行排序。具体来说，sort_array 函数会将 Array 对象中的元素按照升序顺序进行排序，并返回一个新的排序后的 Array 对象。explode 函数可以用于将一个 Array 对象拆分成多行。具体来说，explode 函数会将

overfit同步小助手 2024-02-18 07:03:56 0 收藏

大数据信用报告应该去哪里查询比较好呢?

小易大数据平台是一个集数据采集、整合、分析、应用于一体的智能平台，它拥有丰富的数据源、先进的数据处理技术和专业的服务团队，能够提供全面、准确、高效的大数据信用报告查询服务。如果您需要查询大数据信用报告，不妨选择小易大数据平台。依法采集、整理、保存、加工自然人、法人及其他组织的信用信息，并对外提供信用

overfit同步小助手 2024-02-18 07:03:40 0 收藏

【Spark的五种Join策略解析】

Spark将参与Join的两张表抽象为流式遍历表(streamIter)和查找表(buildIter)，通常streamIter为大表，buildIter为小表，我们不用担心哪个表为streamIter，哪个表为buildIter，这个spark会根据join语句自动帮我们完成。对于每条来自stre

overfit同步小助手 2024-02-18 07:03:35 0 收藏

【微服务核心】ZooKeeper

ZooKeeper搭建，选举机制，常用命令，节点类型，监听器原理，写数据流程，Java API使用，分布式锁，Paxos 算法，ZAB协议，CAP理论

overfit同步小助手 2024-02-18 06:03:32 0 收藏

基于hadoop+spark的大规模日志的一种处理方案

CDN服务平台上有为客户提供访问日志下载的功能，主要是为了满足在给CDN客户提供服务的过程中，要对所有的记录访问日志，按照客户定制的格式化需求以小时为粒度（或者其他任意时间粒度）进行排序、压缩、打包，供客户进行下载，以便进行后续的核对和分析的诉求。而且CDN上的访问日志一般都非常大，需要用大数据处理

overfit同步小助手 2024-02-18 05:03:47 0 收藏

【Kafka】手把手SASL，SSL教学

kafka的SASL和SSL配置全指南

overfit同步小助手 2024-02-18 04:03:51 0 收藏

Docker下的Kafka

在上一篇文章中我们已经成功地拉取了3.5.9版本的zookeeper官方镜像以及bitnami镜像，下面将通过使用bitnami的Kafka镜像搭配使用bitnami的zookeeper镜像来体验Kafka的使用。Kafka是一个分布式流处理平台和消息队列系统，旨在实现高吞吐量、持久性的日志型消息传

overfit同步小助手 2024-02-18 04:03:44 0 收藏

服务治理中间件-Eureka

Eureka是Spring团队开发的服务治理中间件，可以轻松在项目中，实现服务的注册与发现，相比于阿里巴巴的Nacos、Apache基金会的Zookeeper，更加契合Spring项目，缺点就是仅仅只有服务发现与治理功能。

overfit同步小助手 2024-02-18 04:03:20 0 收藏

【知识整理】产研中心岗位评定标准之大数据岗位

为贯彻执行集团数字化转型的需要,该知识库将公示集团组织内各产研团队不同角色成员的职务“职级”岗位的评定标准;

overfit同步小助手 2024-02-18 03:03:35 0 收藏

Spark与AWS：云计算中的Spark

1.背景介绍在当今的大数据时代，数据处理和分析的需求日益增长。Apache Spark作为一个开源的大数据处理框架，因其出色的处理速度和易用性，已经成为大数据处理的首选工具。而云计算平台AWS(Amazon Web Services)则为Spark提供了强大的基础设施支持，使得Spark能够在云环境

overfit同步小助手 2024-02-18 01:04:01 0 收藏

大数据之路-日志采集（第二章）

文章目录2.1 浏览器的页面日志采集2.1.1 页面浏览日志采集流程2.1.2 页面交互日志采集流程2.1.3 页面日志的服务器端清洗和预处理2.2 无线客户端的日志采集2.2.1 页面事件2.2.2 控件点击及其他事件2.2.3 特殊场景2.2.4 H5 & Native 日志统一2.2.

overfit同步小助手 2024-02-18 01:03:58 0 收藏

给ChuanhuChatGPT 配上讯飞星火spark大模型V2.0（一）

讯飞星火大模型配上ChuanhuChatGPT web界面

overfit同步小助手 2024-02-18 01:03:54 0 收藏

SpringCloud+Eureka+Nacos使用和扩展

服务生产者:一次业务中，被其它微服务调用的服务。(提供接口给其它微服务)服务消费者:一次业务中，调用其它微服务的服务。(调用其它微服务提供的接口)服务调用关系服务提供者:暴露接口给其它微服务调用服务消费者:调用其它微服务提供的接口提供者与消费者角色其实是相对的一个服务既可以是提供者也可以是消费者。

overfit同步小助手 2024-02-18 01:03:51 0 收藏

【flink番外篇】18、通过数据管道将table source加入datastream示例

系统介绍某一知识点，并辅以具体的示例进行说明。1、Flink 部署系列本部分介绍Flink的部署、配置相关基础内容。2、Flink基础系列本部分介绍Flink 的基础部分，比如术语、架构、编程模型、编程指南、基本的datastream api用法、四大基石等内容。3、Flik Table API和S

overfit同步小助手 2024-02-18 01:03:41 0 收藏

(13)Hive调优——动态分区导致的小文件问题

Hive——动态分区导致的小文件问题

overfit同步小助手 2024-02-18 01:03:28 0 收藏

Kafka运维相关知识

Consumer 端还有一个参数，用于控制 Consumer 实际消费能力对 Rebalance 的影响，即 max.poll.interval.ms 参数，默认5min，Consumer 端应用程序两次调用 poll 方法的最大时间间隔，表示你的 Consumer 程序如果在 5 分钟之内无法消费

overfit同步小助手 2024-02-18 00:03:23 0 收藏

zookeeper和dubbo入门教程

当/lock节点被删除之后,zookeeper服务器再次通知所有监听了/Exclusive_Locks子节点变化的客户端,客户端收到通知后,再次发起创建/lock节点的操作来获得排他锁。/dubbo/com.zyl.provider.service.IProviderService/provider

overfit同步小助手 2024-02-17 23:04:01 0 收藏

微服务实战系列之ZooKeeper（实践篇）

关于ZooKeeper，博主已完整的通过庖丁解牛式的“解法”，完成了概述。我想掌握了这些基础原理和概念后，工作的问题自然迎刃而解，甚至offer也可能手到擒来，真实一举两得，美极了。为了更有直观的体验，强化概念，博主特别献上一篇实践文章。理论联系实践，才能学到真本领。通过一文搭建ZooKeeper集

overfit同步小助手 2024-02-17 23:03:51 0 收藏

elasticsearch|大数据|低版本的elasticsearch集群的官方安全插件x-pack的详解

编译出来的jar包以及安装包什么的都在百度盘里，有需要的自取试用。重新打jar 包后，每个节点的jar包都要替换掉。

overfit同步小助手 2024-02-17 22:03:55 0 收藏