0


大数据时代下:标签体系的应用

大数据时代下:标签体系的应用

【1】必要性

项目普遍都用到大数据分析平台和用户标签/用户画像,从数据查询的角度来讲从传统的关联关键字段查询到元数据自定义查询,在到标签化查询,是逐步深化的,标签是对数据提前进行最细颗粒度的划分,在复杂的多表关联和联查时的逻辑处理不会影响业务数据的逻辑判断,消除复杂的逻辑处理带来的性能影响。

【2】典型的2种标签管理方式

原始标签:针对数据库,通过数据库中的表进行 (业务小)

产品化后的标签:面向终端:业务影响小,响应快,界面体验好。(业务大)

【3】标签分类方式

  1. 按照来源
  2. 按业务场景(按业务场景和复杂度分层级)
  3. 按数据类型(数值型/单值类型/多值类型/文本类型)

数据标签的分类:

(1)属性标签

(2)统计标签

(3)算法标签

华为数据标签的分类:

  1. 事实标签
  2. 规则标签
  3. 模型标签

【4】标签的内容信息

主要包括:

【标签基本信息】、

【标签的数据表信息】、

【标签加工信息】、

【标签的质量信息】、

【标签的应用信息】

【5】标签建设的整体架构

标签建设项目包括标签加工、标签装载、标签管理、标签服务四个环节

标签加工:很多客户问我标签加工是放在大数据平台,还是传统数据平台中?其实放在哪里都可以,如果你的基础数据已经落地在HDFS了,那建议你在大数据平台中做,毕竟分布式架构的加工跑批速度会有优势,另外对于算法挖掘和文本挖掘类的标签传统数据仓库技术也无法支撑。

标签装载:标签装载层是标签对外提供服务的物理存储层,这里面数据库选型尤为重要,后面有专门的章节分析。数据建模方面,宽表是标签数据模型的金标准。有很多客户问我,宽表中的字段数有没有限制?一张宽表字段数如果太多可不可以按主题拆表做join?标签所有场景的性能响应要求都是秒级的,任何数据库表关联都会大大降低查询效率,所以数据库选型要充分考虑这些因素。

标签管理:标签管理是指平台应用的管理端,管理端是面向内部用户使用的,服务端是面向客户服务的。管理端包括数据代理、标签库管理、标签元数据管理、标签审批、标签上下架、标签应用效果评估、衍生标签配置、客群提取、客群洞察等标签全生命周期管理功能。

标签服务:标签服务是指平台应用的服务端,管理端和服务端要做微服务切割,目的是解耦并建议分开部署,隔离不同渠道调用所占用的资源,例如内部筛选客群负载过大时,不能影响手机银行标签API调用服务,服务之间要做隔离。服务端设计要在网关层面充分考虑负载并发的压力,做分布式部署,保证并发性能的瓶颈不出现java进程这一端。

【6】标签的分类/设计及实现方法

在“数据中台”的规划系统中,数据标签介于数据仓库和数据集市之间。为数据集市做准备。

【7】数据标签的设计

设计步骤:

1.确定标签对象

2.打通对象关系

3.标签类目设计

4.数据标签实现(标签融合表)

标签融合表的二种形式(纵向融合表/横向融合表)

标签: 大数据

本文转载自: https://blog.csdn.net/weixin_29403917/article/details/127982972
版权归原作者 西山创罪梦不觉 所有, 如有侵权,请联系我们删除。

“大数据时代下:标签体系的应用”的评论:

还没有评论