overfit同步小助手

2022-05-29 07:37:30

flume采集数据直接存到hive中

记录一下自己前段时间解决的问题！

首先启动hadoop：

start-all.sh

然后就将hive中的这四个架包拷贝到flume的lib目录下：
请添加图片描述
拷贝过去：

cp/opt/hive/hcatalog/share/*/opt/flume/lib/

启动hive元数据服务，窗口不要关：
在这里插入图片描述
在hive中建表，根据你要采集的数据字段进行建表，并开启orc支持：

Hive命令行查询orc表时，需要激活以下配置，在hive中输入：

set hive.support.concurrency = true;set hive.exec.dynamic.partition.mode = nonstrict;set hive.txn.manager = org.apache.hadoop.hive.ql.lockmgr.DbTxnManager;

接着就是开始配置你的flume文件，在添加输入文件的编码格式为GBK（主要还是取决于你文件的编码），不然会报错。配置如下：
在这里插入图片描述

开启flume:
./flume-ng agent -n a1 -c conf -f /opt/flume/conf/one.conf -Dflume.root.lodder=INFO,console
其中-Dflume.root.lodder=INFO,console可不要，是日志打印：
在这里插入图片描述

将待采集的数据发给到监控文件目录下：
在这里插入图片描述

Flume开始工作：
在这里插入图片描述
最后去hive表中查看结果：

OK，搞定！

下面是我在过程中遇到的一些问题：
在这里插入图片描述

ip地址为master（xx.xx.xx.xx）而不是127.0.0.1
在这里插入图片描述

这里将通道从源获取或提供给接收器的最大事件数值设置大一些，来满足你自己的需求。如果是100则会报错。
在这里插入图片描述

每天扣扣脑袋，敲敲代码，还是挺有意思的呢！
请添加图片描述

标签： flume hive hadoop

本文转载自: https://blog.csdn.net/weixin_52136304/article/details/125018327
版权归原作者 W~J~L 所有，如有侵权，请联系我们删除。

发表评论

登录后发布评论

“flume采集数据直接存到hive中”的评论:

还没有评论

关于作者

overfit同步小助手

文章同步

相关阅读

网络安全法-网络运行安全

使用selenium/drissionpage时如何阻止chrome自动跳转http到https

docker desktop 里部署的Open WebUI 管理员密码忘记了的处理方法

在ubuntu20.04中搭建onsite比赛运行环境

利用开源的低代码表单设计器FcDesigner高效管理和渲染复杂表单结构

Kafka学习笔记

【前端】浏览器输入url到页面呈现发生了什么？

文章导航