0


Doris: Multi Catalog 多源数据目录

文章目录

前言

  • Doris 是一个高性能的分析型数据库,它能够处理大规模的数据存储和分析任务。Doris 的 Catalog 是其核心组件之一,负责存储和管理元数据。

一、基本概念 :

  • 多源数据目录(Multi-Catalog)功能,旨在能够更方便对接外部数据目录,以增强Doris的数据湖分析和联邦数据查询能力。

目前能支持以下数据源:

  • 1、Hive Metastore:可以访问包括 Hive、Iceberg、Hudi 在内的数据表,也可对接兼容 Hive Metastore 的数据源,如阿里云的 DataLake Formation,同时支持 HDFS 和对象存储上的数据访问。
  • 2、Elasticsearch:访问 ES 数据源。
  • 3、JDBC:支持通过 JDBC 访问 MySQL 数据源。

JDBC 外部表

  • 在过去版本中,Apache Doris 提供了 ODBC 外部表的方式来访问 MySQL、Oracle、SQL Server、PostgreSQL 等数据源,但由于 ODBC 驱动版本问题可能造成系统的不稳定。相对于 ODBC,JDBC 接口更为统一且支持数据库众多,因此在 1.2.0 版本中我们实现了 JDBC 外部表以替换原有的 ODBC 外部表。在新版本中,用户可以通过 JDBC 连接支持 JDBC 协议的外部数据源,
  • 当前已适配的数据源包括:
  • MySQL
  • PostgreSQL
  • Oracle
  • SQLServer
  • ClickHouse****更多数据源的适配已经在规划之中,原则上任何支持 JDBC 协议访问的数据库均能通过 JDBC 外部表的方式来访问。而之前的 ODBC 外部表功能将会在后续的某个版本中移除,还请尽量切换到 JDBC 外表功能。

二、基本操作

2.1 查看 catalog

show catalogs;

show catalogs

//模糊查询catalogSHOW CATALOGS LIKE'%56%'//查询该catalog下有哪些实例(库)showdatabasesfrom jdbc_oracle_zqxk40;//查询该实例(库)下有哪些表showtablesfrom jdbc_oracle_zqxk40.`C##YUNZHENGDATA`;//查询oracle远程表的数据select*from jdbc_oracle_zqxk40.`C##YUNZHENGDATA`.BIAO1_QUANLIANGCHE limit10;

2.2 新增catalog

CREATE CATALOG `jdbc_oracle_zqxk40` PROPERTIES ("type"="jdbc","user"="C##YUNZHENGDATA","password"="xxx","jdbc_url"="jdbc:oracle:thin:@//172.0.0.1:1521/ORCLCDB","driver_url"="ojdbc6-11.2.0.3.jar","driver_class"="oracle.jdbc.driver.OracleDriver");

2.3 切换 catalog

switch catalog_name;

切换后,可以直接通过 SHOW DATABASES,USE DB 等命令查看和切换对应 Catalog 中的 Database。Doris 会自动通过 Catalog 中的 Database 和 Table。用户可以像使用 Internal Catalog 一样,对 External Catalog 中的数据进行查看和访问。

当前,Doris 只支持对 External Catalog 中的数据进行只读访问。

2.4 删除 catalog

DROP CATALOG IFEXISTS jdbc_oracle_56_dlyz_clear;

2.5 查看catalog创建信息

showcreate catalog jdbc_oracle_56_dlyz_clear;

三、元数据更新

  • 默认情况下,外部数据源的元数据变动,如创建、删除表,加减列等操作,不会同步给 Doris。
  • 用户可以通过以下几种方式刷新元数据。

3.1手动刷新

  • 用户需要通过 REFRESH CATALOG catalog_name;命令手动刷新元数据。

3.2定时刷新

  • 在创建catalog时,在properties 中指定刷新时间参数metadata_refresh_interval_sec ,以秒为单位,若在创建catalog时设置了该参数,FE 的master节点会根据参数值定时刷新该catalog。目前支持三种类型
  • hms:Hive MetaStore
  • es:Elasticsearch
  • jdbc:数据库访问的标准接口(JDBC)

3.3自动刷新

自动刷新目前仅支持 Hive Catalog。该特性在 fe.conf 中有如下参数:

  • enable_hms_events_incremental_sync: 是否开启元数据自动增量同步功能,默认关闭。
  • hms_events_polling_interval_ms: 读取 event 的间隔时间,默认值为 10000,单位:毫秒。
  • hms_events_batch_size_per_rpc: 每次读取 event 的最大数量,默认值为 500。

四、JDBC Catalog

  • JDBC Catalog 通过标准 JDBC 协议,连接其他数据源。连接后,Doris 会自动同步数据源下的 Database 和 Table 的元数据,以便快速访问这些外部数据。

4.1 上传mysql驱动包

  • 需将 Jar 包预先存放在 FE 和 BE 部署目录的 jdbc_drivers/ 目录下。系统会自动在这个目录下寻找。该目录的位置,也可以由 fe.conf 和 be.conf 中的 jdbc_drivers_dir 配置修改。mysql-jdbc
  • 修改fe和be配置文件,指定jdbc_drivers_dir目录。fe.conf,be.conf

4.2 创建mysql catalog

####mysql 8CREATE CATALOG jdbc_mysql_233_8 PROPERTIES ("type"="jdbc","user"="root","password"="123456","jdbc_url"="jdbc:mysql://192.168.110.233:3307/demo","driver_url"="mysql-connector-java-8.0.30.jar","driver_class"="com.mysql.cj.jdbc.Driver")####mysql 5CREATE CATALOG jdbc_mysql_233_5  PROPERTIES ("type"="jdbc","user"="root","password"="123456","jdbc_url"="jdbc:mysql://192.168.110.233:3306/demo","driver_url"="mysql-connector-java-5.1.47.jar","driver_class"="com.mysql.jdbc.Driver")

总结

如果此篇文章有帮助到您, 希望打大佬们能

关注

点赞

收藏

评论

支持一波,非常感谢大家!
如果有不对的地方请指正!!!

参考1
参考2

标签: 数据仓库

本文转载自: https://blog.csdn.net/weixin_42326851/article/details/140617089
版权归原作者 lfwh 所有, 如有侵权,请联系我们删除。

“Doris: Multi Catalog 多源数据目录”的评论:

还没有评论