大数据 - overfit.cn

Hive中用户自定义函数UDF、UDAF、UDTF的定义以及UDF具体实现

在Hive学习中，我们刚接触到用户自定义函数可能会有点不理解，下面我就根据我所知的来给跟我遇到过同样问题的人一点帮助。目录前言简单定义UDF具体实现预应用运用UDF，源自于英文user-defined function。我们根据函数输入输出的行数可以将其分为三类：(不仅适用于用户自定义函数)UDF普

overfit同步小助手 2024-06-20 13:03:28 0 收藏

腾讯云大数据ES Serverless

Elasticsearch：日志和搜索场景首选解决方案。技术特点：分布式、全文搜索和数据分析引擎，可以对海量数据进行地ES的技术栈一共包含四个组件：其中最核心的是Elasticsearch，可用于数据的存储与检索。在数据采集层面，我们可以使用Beats组件，采集之后通过Logstash进行加工，然后

overfit同步小助手 2024-06-20 12:03:52 0 收藏

SpringBoot——整合RabbitMQ收发消息

SpringBoot整合RabbitMQ收发消息的一个项目示例

overfit同步小助手 2024-06-20 09:03:50 0 收藏

spark复习

5.构建一个机器学习流水线，首先要定义流水线中各个PipelineStage，称为工作流阶段，包括转换器和评估器，之后就可以按照具体的处理逻辑，有序组织PipelineStage并创建一个流水线。6.RDD编程中需要生成一个SparkContext对象，在Spark SQL编程中需要生成一个Sp

overfit同步小助手 2024-06-20 08:03:18 0 收藏

MQ基础（RabbitMQ）

同步通信：就相当于打电话，双方交互是实时的。同一时刻，只能与一人交互。异步通信：就相当于发短信，双方交互不是实时的。不需要立刻回应对方，可以多线程操作，跟不同人同时聊天。

overfit同步小助手 2024-06-20 06:03:49 0 收藏

使用kafka tools工具连接带有用户名密码的kafka

2、在Security选择Type类型为SASL Plaintext。3、在Advanced页面添加如下图红框框住的内容。1、创建kafka连接，配置zookeeper。4、在JAAS_Config加上如下配置。

overfit同步小助手 2024-06-20 06:03:44 0 收藏

数据仓库技术与应用

然而，本地数据仓库的弹性较低，需要企业通过复杂的预测来确定如何扩展数据仓库，以满足未来需求。数据仓库能够集中、整合多个来源的大量数据，借助数据仓库的分析功能，企业可从数据中获得宝贵的业务洞察，改善决策。（1）外部表：因其指删除表时不会删除HDFS上的数据，安全性相对较高，且指定目录的特性，适合数据需

overfit同步小助手 2024-06-20 05:03:57 0 收藏

手机流量分析——Hadoop实现

统计每个手机号上行流量和、下行流量和、总流量和（上行流量和+下行流量和）,并且：将统计结果按照手机号的前缀进行区分，并输出到不同的输出文件中去。在该目录下使用hadoop调用该包，通过数据源文件，求出每个手机号的总上行流量、下行流量、总流量。(2) 根据(1)的手机号流量汇总结果再按照题目要求将不

overfit同步小助手 2024-06-20 05:03:48 0 收藏

HBase数据库面试知识点：第二部分 - 核心技术（持续更新中）

关注宝藏博主，绝不后悔！！

overfit同步小助手 2024-06-20 04:03:30 0 收藏

对大数据的批量导入MySQL数据库

/E:后面不用写//来代表在盘符下，SQL会默认缺省的，不然添加后报错。//将会调用下面的配置文件。这个方式虽然快是快，但是对文件的要求太高，客户不可能对程序理解，只知道传进来文件，所以自己取到file对象都会对file进行按行读取并进行判断重写写入临时文件。fields terminated by

overfit同步小助手 2024-06-20 04:03:22 0 收藏

flink读取hive写入http接口

在这种模型中，当一个类需要被加载时，首先会从父类加载器开始查找，如果父类加载器能够找到并加载该类，那么就直接使用父类#加载器加载的类，不再尝试由当前类加载器自己加载。log.info("加载org.apache.flink.table.planner.delegation.DialectFactor

overfit同步小助手 2024-06-20 03:03:49 0 收藏

解决hive客户端输入命令出现大量日志问题

在hive的conf目录下新建log4j.properties文件传入一下内容。解决办法：只让终端提示错误信息。

overfit同步小助手 2024-06-20 03:03:44 0 收藏

毕设分享 python大数据房价预测与可视化系统

# 0 简介今天学长向大家介绍一个适合作为毕设的项目毕设分享 python大数据房价预测与可视化系统项目获取：https://gitee.com/assistant-a/project-sharing对于数据挖掘工程师来说，有时候需要抓取地理位置信息，比如统计房子周边基础设施信息，比如医院、公交车站

overfit同步小助手 2024-06-20 02:03:56 0 收藏

kafka什么情况下会认为发送失败进而去重试

在Kafka中，发送消息的过程是异步的，即消息后不会立即得到发送结果。Kafka会将消息添加到发送缓冲区，并立即返回一个成功的响应。因此，Kafka并不会直接知道消息是否成功发送到了目标主题的分区。需要注意的是，Kafka的重试机制是有限制的。在重试过程中，如果达到了最大重试次数或者超过了最大重试时

overfit同步小助手 2024-06-20 02:03:17 0 收藏

Spark spark-submit 提交应用程序

1、在集群不是特别大，并且没有mapReduce和Spark同时运行的需求的情况下，用Standalone模式效率最高。2、Spark可以在应用间（通过集群管理器）和应用中（如果一个SparkContext中有多项计算任务）进行资源调度。

overfit同步小助手 2024-06-20 00:04:10 0 收藏

【大数据篇】大数据与云计算：塑造未来的技术力量

在医疗领域，通过云计算平台可以整合来自不同医疗机构的大量医疗数据，利用大数据分析技术来挖掘疾病的模式和趋势，为疾病的诊断和治疗提供科学依据。此外，数据质量也是一个关键要点。同时，云计算平台也在不断地进化和创新，提供更多的功能和服务，以满足不同用户的需求。又如，电子商务平台如亚马逊，通过收集用户的浏览

overfit同步小助手 2024-06-20 00:03:59 0 收藏

Hive基础知识（十三）：Hive的Group by语句与Having语句

GROUP BY 语句通常会和聚合函数一起使用，按照一个或者多个列队结果进行分组，然后对每个组执行聚合操作。1）案例实操：（1）计算 emp 表每个部门的平均工资（2）计算 emp 每个部门中平均薪资大于2000，及部门平均薪资。（3）计算 emp 每个部门中每个岗位的最高薪水。

overfit同步小助手 2024-06-19 22:03:40 0 收藏

SpringCloud微服务之Eureka、Ribbon、Nacos详解

✍、SpringCloud微服务之Eureka、Ribbon、Nacos详解

overfit同步小助手 2024-06-19 22:03:33 0 收藏

Flink向Doris表写入数据（Sink）

最近在工作中遇到了Flink处理kafka中的数据，最后写入Doris存储的场景。Apache Doris 是一款基于 MPP 架构的高性能、实时的分析型数据库，以高效、简单、统一的特点被人们所熟知，仅需亚秒级响应时间即可返回海量数据下的查询结果，不仅可以支持高并发的点查询场景，也能支持高吞吐的复杂

overfit同步小助手 2024-06-19 21:03:45 0 收藏

Hadoop 2.0：主流开源云架构（四）

本文讲解Hadoop2.0主流开源云架构，介绍Hadoop2.0访问接口和Hadoop2.0编程接口。

overfit同步小助手 2024-06-19 20:03:37 0 收藏