大家好,我是herosunly。985院校硕士毕业,现担任算法研究员一职,热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名,CCF比赛第二名,科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。
本文主要介绍了AIGC时代重塑数字安全风控体系,希望能对学习网络安全的同学们有所帮助。
文章目录
1. 数字风控概述
从2007年开始到2014年左右,高速移动网络和智能手机迅速在大众中普及,开启了移动互联网时代。在这个背景下,企业的产品与服务也出现了两个重要的趋势。
第一个趋势是企业业务的数字化与在线化。在PC互联网时代,互联网的主要作用是以文字和图片为主的新闻与信息的传播,比如典型的如门户网站、论坛、电子邮件、搜索引擎等。到了移动互联网时代,大量企业将自己的产品与服务在线化,通过手机上的一个App提供给用户,使得用户能够随时随地、更便利地使用这些服务。短短几年间,人们日常生活中的衣、食、住、行、金融等,很大部分都可以通过手机完成,而不再是通过线下完成。不同行业业务数字化与在线化的深度和广度仍然在高速地拓展中。可以预见的是,未来几乎所有的面向最终用户的企业,都会将自己的核心产品与服务数字化,并利用移动互联网提供出来。
第二个趋势是企业经营理念从交易成单型转向用户运营型。传统上,一个企业仅仅关注“交易成单”而不关注“用户运营”。例如,一个咖啡店,顾客进门购买咖啡,支付,拿咖啡,出门,这一单就结束了,咖啡店和顾客之间再没有关系。在移动互联网时代,企业通过App和用户建立联系,不仅仅关注成单,同时也关注用户。通过用户的评论反馈与流失分析,改进自己的产品与服务;通过“种草”文章给用户介绍不同的产品;通过给用户发放优惠券或者“小样”,鼓励用户尝试自己可能喜欢的产品等等。企业通过对用户进行精细化的运营,更好地服务了用户,提升用户的满意度,同时,也给自己带来了更多的成单量。
企业将自己的产品与服务放到了移动互联网上,为用户提供了更便利、满意度更高的服务。与此同时,企业在营销、交易、生态、内容的生产与传播等互联网核心业务环节面临着越来越严峻的安全挑战,业务风控逐渐成为一个企业的基础设施。
风控,即风险控制,是一个应用非常广泛的词,在不同的领域,有着不同的含义。本文所说的风控是指针对企业在线业务中出现的各类业务层面风险的识别与防控。下面以几个典型的场景来进一步明确本文所指的风控。
营销是企业做用户运营的有效手段。营销的形式非常多样化,不过,从营销的目的来看,大体上可以分为两类:
无论具体的形式是什么,拉新营销活动的本质逻辑都是“奖励新用户”,或者说是“花钱买用户”。只要拉新营销的本质逻辑不变,黑产总可以用各种手段造一批假用户“卖”给企业;各种促活类营销活动的本质逻辑都是“奖励活跃”,或者说是“花钱买活跃”。只要促活营销的本质逻辑不变,黑产也总能够用各种手段制造假活跃“卖”给企业。对于企业而言,要理解营销中是存在风险的,因为营销费用的损失很少出现在账面上,将预算投入营销活动,活动后留存不好,很多企业会认为是由于“投放人群不对”或者“产品体验不好”等因素,而忽略了营销活动中大量参与者可能都是“假”的用户——事实上,如果没有良好的营销风控,这个是大概率会发生的事情。
交易是很多业务完成的必要场景。比如,购买商品、服务等,都不可避免地有支付交易这个环节。交易也是风险最敏感的场景之一,因为,这里的风险通常直接和钱相关。交易环节的风险通常包括伪冒交易、电信诈骗、恶意退款、无意退款等。用伪冒交易举例,即黑产通过买卖等多种方法,盗取用户的银行卡信息,在线完成支付盗刷交易。盗刷交易通常会选择容易变现的商品,或者与小商家串通变现,或者通过服务打赏等途径变现。最近几年,盗刷还采用过一种极其隐蔽的方式:每张卡每天仅伪冒支付几元到十几元,连续很多天持续不断地进行。因为每个人每天都会有很多小额支付,而且很多小额支付是没有银行短信提醒的,所以,人们很难发现自己的卡被多支付了十几块钱。
应用内的生态包含的内容比较多,最常见的生态之一是“榜单”或者“热榜”。App希望优质的商品、内容排到前面,被更多的用户购买、看到。同时也鼓励了商家或内容生产者不断提供优质的商品与内容,形成良性循环。无论是商品还是文章、视频,同样的内容,在某个品类榜单的前几名和在榜单的3页以后,吸引的流量通常有着数量级的差别。由于榜单潜藏着巨大的利益,就存在购买“刷榜”服务的风险。通过购买刷榜服务,利用虚假的观看、点赞、收藏、好评等动作,将一个商品或者内容刷到榜单前面。如果这种风险不加制止,就会形成劣币驱逐良币的情况,平台中的商品内容质量不断降低,损害用户体验,严重影响平台的长期发展。
上面是业务风险的一些典型场景,业务风险在不同的行业可能会有更具体的表现形式,比如,航旅行业的抢占低价座倒卖、抢占低价房倒卖;电商行业的占库存、秒杀特价商品、虚假交易套利;游戏行业的资源号、iOS恶意退款等等。
通过上面的描述,相信大家对“业务风控”在解决什么问题有了一个直观的了解。
2. 数字风控体系架构
2.1 体系构成
数字风控体系主要由布控体系、识别体系、处置体系、运营体系4部构成,其结构图如下图所示。
布控体系:是在业务的交互流程中,设计布控的埋点事件和每个事件上采集的参数,提供数据给识别体系进行黑灰产识别,同时供处置体系进行交互干预,实现对黑产的有效防御作用。如在设备的启动环节,埋点采集设备的参数,进而识别使用的设备是否存在风险。
识别体系:根据布控体系采集的事件参数,通过各种策略算法识别多种类型黑产,是整个风控体系的眼睛,让隐藏在庞大数据中黑产无所遁形。想要眼睛看得清、看得准,关键要有成体系的防御网,从多个维度的数据、多个维度的策略算法识别黑产,提升黑产绕过成本。
处置体系:在业务流程中进行处置干扰,识别体系不可能保证识别的100%的精准,通过合理的处置手段,可以让黑产无功而返,同时可以保证误召回的用户不受影响。处置体系是直接关系到业务的结果的一环,如何将决策引擎返回的结果用好、用哪种方式以及什么时间点用都决定了用户的体验以及最终的风控效果。处置体系需要考量的方面比较多,并且家公司根据业务逻辑会对决策结果分为不同场景不同阶段的处置方式。
运营体系:是持续地攻防对抗、不停迭代,保证整体防御效果的稳定。通过多种手段发现潜在的效果问题,再深入分析问题总结规律,快速迭代识别体系和处置体系,确保潜在问题提前修复、已知问题快速修复,尽最大可能保证业务安全。
通过图1所示的四部分体系结构,构建了整个数字风控体系,每一部分都承担着独立重要的角色,后文将深入介绍每个体系包含的内容。
2.2 体系运行
体系运行主要介绍整体数据流向,便于理解上述提到的体系,包括两部分:在线数据流和离线数据流。在线数据流是指从一条请求进入系统开始,在各系统模块之间流转,计算特征,得出最终结果的过程,在线数据流的流转保证了识别处置的实时性。离线数据流是指从离线日志出发,在各个计算模块之间流转,计算特征,给出最新结果,并最终将结果更新到画像系统中过程。
1.在线数据流
当一条请求发生时,是如何得到最终的处置结果并且发挥作用的?答案是通过请求数据在各个体系模块内的流转最终得到决策建议。通过长期的实践,数美形成了一套独特的在线数据流转系统,其在线数据流处理流程如图2所示。
下面依据数据流在各模块之间的流转顺序进行介绍,如下所示。
- 如图2左下位置,在设备启动或页面打开时,首先通过SDK采集设备或浏览器相关信息,主要包括硬件层、系统层、应用层、进程层、环境层等相关数据。采集到设备数据首先上报到设备指纹服务端,该服务器会根据这些数据生成设备唯一标识。设备标识可以看作是设备的唯一身份证号,从此这个设备在数据中就是唯一存在,然后生成的设备标识会加密处理下发到客户端。
- 设备指纹服务端会根据采集信息计算设备风险特征,为设备生成各种标签,如篡改设备、伪造设备、农场设备、多开设备等,这些画像会实时更到设备画像系统中。画像系统是一个包含设备画像、手机号画像、IP画像、账号画像等的数据库,无论是设备、手机号、还是IP,在发生请求的时候都会在画像系统更新自己的特征,因为黑产的资源也是有限的,这些画像会随着时间的增长、接入数据的增多逐渐沉淀,这迫使黑产无法使用旧资源从而寻找使用新资源,这也会使其付出更昂贵的代价。
- 如图2左上角位置,在客户端发生各种业务行为时,会进行布控,将行为发生时的信息连同设备标识上传到业务系统。业务系统会将信息传入风控系统。主要参数包括事件类型、账号标识、IP地址、设备标识、发生时间等信息,请求会进入在线数据流的实时决策引擎。
- 实时决策引擎,首先会请求不同类型的基础引擎进行特征计算和组装、这些特征过决策引擎输出决策结果,实时将决策结果反馈给业务系统。
基础引擎主要是进行特征计算和组装,包括名单引擎、关系引擎、画像引擎、统计引擎、模型引擎等。这些引擎主要是计算不同类别的特征,引擎是有挂载顺序的,下游的引擎可以使用上游引擎输出的特征。名单引擎主要是判定输入特征是否命中名单,为灵活配置,名单的匹配方式比较灵活,包括相等、包含、相似等匹配方式。如设备黑名单、文本包含黑名单等。关系引擎是根据输入的ID类信息读取关联关系,如读取账号关联的设备等。画像引擎是ID类信息,读取ID相关的画像特征,如读取设备基础特征、设备风险特征等。统计引擎是计算统计类特征,如同IP下一天关联的去重账号数等。模型引擎主要是计算监督模型特征,如设备评分模型,账号评分模型等。
实时决策引擎主要运行专家规则。专家规则都是通过可视化UI管理配置的,如图2右上角所示。专家规则使用的特征都是由基础引擎计算得到的,专家规则支持与或条件迭代,支持大于、等于、小于、包含等逻辑计算。如果命中规则,实时决策引擎会返回策略编号、处置建议、风险等级等给业务系统。业务系统会根据自己的业务处置逻辑对结果进行处置,从而完成整体在线数据流。
离线数据流
在线数据流存储和计算能力有限,需要使用长周期、全局计算的模型策略,对存储和计算能力要求较高,因此会在离线数据流中进行处理计算,然后将结果回写到在线画像引擎中。离线数据流处理流程如图3所示。
离线数据流在各个模块之间的流转顺序上图所示:
包含原始行为数据与设备数据的在线日志会传入数据仓库,形成离线日志。离线特征引擎会根据特征依靠关系进行逐级计算存储,主要计算各种实体的关联特征、聚集特征、相似特征、地域特征等。完成计算的特征进入离线决策引擎,经过专家规则给出结论,即实体的各种高级特征,如是否团伙账号、是否高频账号等,然后将这些实体的特征回写入画像系统中以供后续使用。
如上所示,在线数据流、离线数据流构成了整个风控体系运行的载体,保证整体风控系统的正常运行。
以上内容节选自由机械工业出版社与数字风控领域领军者数美科技联合倾力打造的数字风控领域专业书籍《数字风控体系:设计与实践》
《数字风控体系:设计与实践》由数美科技CEO、CTO领衔执笔,是数美科技技术团队近十年一线风控经验的沉淀与总结。
3. 粉丝福利
- 本次送书两本
- 活动时间:截止到2024-4-22 12:00
- 参与方式:关注博主、并在此文章下面点赞、收藏并任意评论。
- 一本送给所有粉丝抽奖,另外一本送给购买专栏的同学们,购买专栏并且没有送过书的同学们可私信联系,先到先得,仅限一本
4. 自主购买
小伙伴也可以访问链接进行自主购买哦~
直达京东购买链接🔗:数字风控体系:设计与实践
版权归原作者 herosunly 所有, 如有侵权,请联系我们删除。