去年的“AI孙燕姿”活跃至今,最近生成式AI在音频方面又玩出了新花样,比如昆仑万维发布「天工Sky Music」,Open AI发布能用15秒克隆任何语音的Voice Engine,网易云面向专业音乐人内测「网易天音」,Stable Audio 2.0支持用户通过文本或音频生成3分钟的高质量音乐。
在全球风险投资的低潮期,生成式AI(GenAI)逆市而起,融资额增长了400%,但GenAI的商业化还处在探索阶段。越来越多的公司加入AI生成音频的浪潮,试图借此打通一条AI变现的新路径。
使用过生成式AI的人可能都知道,AI生成的内容不可控,甚至还有很多潜在的风险。2024年4月,全国首例“AI声音侵权案”一审宣判,被告方书面赔礼道歉,并赔偿原告各项损失25万元。为了提前规避风险,对AI生成的内容进行专业审核是非常必要的。
一、刨根究底:明知不可控,为什么还要用AI生成声音?
1. 作为一种可商业化的创作工具
以前,使用电子技术制作虚拟歌手有着广泛的市场,洛天依、初音未来及其歌曲经久不衰。通过深度学习和自然语言处理等技术,现在的AI可以生成具有更高真实感和相似度的声音。这种技术可以应用于各种领域,如语音合成、语音识别、语音克隆、音乐创作等。
AI生成音频的市场需求正在不断增加,商业化前景十分广阔。4月初,基于昆仑万维「天工3.0」超级大模型打造的「天工SkyMusic」开启免费邀测,人声“以假乱真”,能够生成80秒44100Hz采样率双声道立体声的高质量AI歌曲。网易AI音乐推出「网易天音」,主打AI作词、AI编曲和AI一键写歌,“录入灵感、AI生成出稿、手动调整、导出”即可创作一首歌曲。
2.生成有声读物,提供阅读辅助
对于儿童或者暂时没有阅读条件的人群(如视力障碍者、车辆驾驶员),“AI生成音频”可以提供个性化、定制的服务,通过将文本转换成语音、搭配自然而富有感情的声线的方式,让用户更快速地获取信息,从而提高阅读效率。此外,能为语言能力受损的患者提供治疗应用程序,或为有学习需求的患者提供教育增强功能。
例如,Age of Learning作为一家儿童教育公司,正在使用AI技术生成各种有声读物,并把AI生成声音和GPT-4结合起来,与学生进行实时、个性化的互动。
3.改善偏远地区的基础服务,触及全球社区
在一些发展相对滞后、非通用语种的地区,信息传播往往受到各种限制。通过AI生成音频的方式,偏远地区能快速同步最新资讯,促进信息的跨语言传播,提高信息传播的效率和准确性,协助改善公民基础服务。
二、解决方案:调用API接入百度内容审核平台
打开内容审核平台内容审核_内容安全_智能审核-百度AI开放平台,登录百度智能云账号后,别忘记先领取免费资源薅羊毛!!一分钟快速领取某云平台内容审核免费测试资源!-CSDN博客。
1.创建应用
应用是调用API服务的基本操作单元,可以基于应用创建成功后获取的API Key及Secret Key,进行接口调用操作,及相关配置。
应用名称:必填项,用于标识您所创建的应用的名称,支持中英文、数字、下划线及中横线,此名称一经创建完毕,不可修改;
接口选择:必填项,每个应用可以勾选业务所需的所有AI服务的接口权限(仅可勾选具备免费试用权限的接口能力),应用权限可跨服务勾选,创建应用完毕,此应用即具备了所勾选服务的调用权限;
包名绑定:选填项,如果您需要使用OCR、AR及语音客户端SDK服务(iOS/Android),需要绑定包名信息,以便生成授权License,上图中勾选了「通用文字识别」权限后,即展现此项。注:人脸识别客户端SDK需要单独申请使用,无需在此配置;
应用描述:必填项,对此应用的业务场景进行描述。
填写完毕后,即可点击「立即创建」,完成应用的创建。点击左侧导航中的「应用列表」,可以进行应用查看:
创建完毕应用后,平台将会分配此应用的相关凭证,主要为AppID、API Key、Secret Key。调用API接口时,可以使用这些凭证,进行Access Token(用户身份验证和授权的凭证)的生成。
2.调用服务
调用AI服务相关的API接口有两种调用方式,两种不同的调用方式采用相同的接口URL。区别在于请求方式和鉴权方法不一样,请求参数和返回结果一致。
调用方式一 请求URL数据格式
向授权服务地址
https://aip.baidubce.com/oauth/2.0/token
发送请求(推荐使用POST)。百度AI开放平台使用OAuth2.0授权调用开放API,调用API时必须在URL中带上Access_token参数。Access_token是用户的访问令牌,承载了用户的身份、权限等信息。
grant_type: 必须参数,固定为
client_credentials
;
client_id: 必须参数,应用的
API Key
;
client_secret: 必须参数,应用的
Secret Key
;
https://aip.baidubce.com/oauth/2.0/token?grant_type=client_credentials&client_id=Va5yQRHlA4Fq5eR3LT0vuXV4&client_secret=0rDSjzQ20XUj5itV6WRtznPQSzr5pVw2&
获取Access_token有三种方式:通过代码的形式获取,使用网页调试工具获取,在线调试工具。具体可参考Access Token获取
POST中参数按照API接口说明调用即可。
例如图像审核API,使用HTTPS POST发送:
https://aip.baidubce.com/rest/2.0/solution/v1/img_censor/v2/user_defined?access_token=24.f9ba9c5241b67688bb4adbed8bc91dec.2592000.1485570332.282335-8574074
调用方式二 请求头域内容
在请求的HTTP头域中包含以下信息,API认证机制authorization必须通过百度云的AK/SK生成:
- host(必填)
- x-bce-date (必填)
- x-bce-request-id(选填)
- authorization(必填)
- content-type(必填)
- content-length(选填)
作为示例,以下是一个标准的图像审核的请求头域内容:
POST /rest/2.0/solution/v1/img_censor/v2/user_defined HTTP/1.1accept-encoding: gzip, deflate
x-bce-date: 2015-03-24T13:02:00Z
connection: keep-alive
accept: */*
host: aip.baidubce.com
x-bce-request-id: 73c4e74c-3101-4a00-bf44-fe246959c05e
content-type: application/x-www-form-urlencoded
authorization: bce-auth-v1/46bd9968a6194b4bbdf0341f2286ccce/2015-03-24T13:02:00Z/1800/host;x-bce-date/994014d96b0eb26578e039fa053a4f9003425da4bfedf33f4790882fb4c54903
调节参数的秘诀可点击如何成为调参侠:解锁审核系统精准配置秘籍
三、音频审核技术原理
语音、语义、声纹多重审核保障。使用领先的ASR(语音识别)引擎,将音频中的语音转写为文本,利用文本审核模型识别违规内容,并结合音频特征识别技术,准确识别低俗声音(呻吟、娇喘、ASMR)等违规内容。
1.短音频同步审核
采用同步方案,接口返回速度快,适合对响应时延要求高的场景。音频审核能力包含娇喘声检测和语音内容审核,语音内容审核是先通过语音识别将语音转换为文字,再通过文本审核,审核项目与文本审核一致。
2.音频文件异步审核
采用异步方案,适合长音频文件批量审核的场景。音频审核能力包含娇喘声检测和语音内容审核,语音内容审核是先通过语音识别将语音转换为文字,再通过文本审核,审核项目与文本审核一致。
3.文本审核
百度违禁词库:包含百度海量历史数据挖掘,提供对封禁词语的识别审核能力
文本色情:对文本中的色情行为描述、色情资源链接、低俗交友、污秽文爱等内容进行识别
恶意推广:对文本中带有售卖意向的软文广告,微信、QQ等个人联系方式等违规内容及变体进行识别
低俗辱骂:对文本中的侮辱谩骂、人身攻击、消极宣泄等内容进行识别
低质灌水:对网络社区常见的乱码、水帖、刷屏等无意义的灌水信息进行识别
隐私信息:对涉及个人身份的隐私信息进行识别,如身份证号、社保卡号、银行卡号等
广告法审核:对广告法中要求的不能出现的违规词进行检测
附录:常见术语
术语
解释
审核策略
审核策略是包含了用户审核规则的一条配置集合,包括选择需要的审核维度以及对应的自定义松紧度。一个应用(AppID)下可以包含多条策略以供适配不同的业务场景。
审核维度
以图像审核为例,包含色情、违禁等一级审核维度,以及对应的性玩具、艺术品色情;赌博、吸烟等细分审核维度
置信度
模型对对送审内容的违规风险打分结果,结果介于数字0-1之间,数值越大意味着风险可能性越高。
自定义松紧度
可对各项审核维度的审核严格程度进行自定义调节。点击各审核维度的“”展开按钮,即可以看到调整审核松紧度的滑动条:每个审核标签都有一个滑动条和两个调整审核松紧度的滑块,两个滑块将整个区域分为白色合规区、橙色疑似区、红色违规区,红色区域越大越多的文本会落在这个区域,审核越严格,反之亦然。
版权归原作者 ZNNRZNNR 所有, 如有侵权,请联系我们删除。