数据分析与风控趋势(消费金融、信用卡及供应链金融)
本文中的关键字:消费者融资,数据,风险控制,供应链融资
-------
基于数据和技术驱动方法的管理风险是行业未来发展的不可逆转的一般方向。金融机构必须积极接受这一发展趋势。
业务简介
该模型必须基于业务以及本文中提到的模型的实际应用程序方案。该机构的主要业务中有三个主要模块:
图1主要业务范围
数据中间
数据中数据的概念源自军事领域,美国军方战斗系统的最早演变得到了发展。
技术“智国”主要是指学习这种高效,灵活和强大的命令和战斗系统。
例如,经过十多年的发展,该组织是巨大而复杂的,并且该业务经过不断完善和分解,这也导致野蛮发展系统变得越来越维护。发展和转化效率极低。车轮制造,这么多著名的中东系统诞生于该行业。最著名的是阿里巴巴云数据的构建。
数据中场抽象是三个级别。底层是基本数据层,中层业务抽象模型层和算法模型层的上层。
如图。 2大数据中中间阶段的抽象结构
大数据的目的是解决效率问题,同时降低创新成本。
在数据中,该平台收集了OTA的整个生态环境数据。框架的底层是计算和存储资源层。顶部是数据准备层,集成数据源,并绘制,清洁并在线和离线提供。服务,使其能够为用户,功能引擎和应用于模型算法提供基本数据。基本数据,用户肖像,特征市场和模型服务以数据资产的形式管理。基于这些数据资产,您可以为各种业务线路订购,访问,操作和保留的全体生活周期提供各种服务。帧图如下:
图3数据中和台湾全景视图
风险控制模型系统
消费者融资的风险可以大致分为可控制的风险和无法控制的风险。算法可以解决的是控制风险。受控风险包括欺诈风险,信用风险和经营风险。其中爱游戏ayx官网登录入口,欺诈风险是指客户发起贷款请求时无意的还款。根据人数,他们可以分为帮派欺诈和个人欺诈。联系信息,设备信息,资产信息和其他实施欺诈的方法;信用风险是指借款人因各种原因而及时偿还债务或银行贷款的可能性。空前的风险包括市场风险,实质性风险和名义风险。
如图。 4基本分类
风险控制模型贯穿整个客户的客户生命周期的客户获取,访问,操作和逾期。
根据用户生命周期的不同阶段,可以将风险控制模型分为信用风险模型,贷款中的行为风险模型,欺诈测试和邮政-Loan收集模型。
实际上,掌握信用批准管理可以控制80%的风险。一旦用户获得信用,随后的管理只能控制20%的风险。
此外,贷款,贷款和贷款之后的不同情况可以从不同的观察粒径中建模和抽象。从每笔交易的角度,从生态学中的用户帐户的角度或以自然人为核心的概念来掌握代理商的业务。自然的客户和帐户可以是一个 - 一家关系,一个帐户也可以是与交易的一家关系。
如图。 5个评级模型系统
银行和消费金融公司等各种贷款商业机构通常会使用信用评分来实施评分系统,以便对客户的风险水平有准确的判断,并作为风险定价的重要手段。
业内有三张ABC评分卡。卡,B卡和C卡分别指示:申请卡,行为计分卡和收集计分卡。
卡A:在获取客户过程中使用的信用风险模型。
从模型的角度来看,它可以预测将来用户的逾期风险,也就是说,该模型将在用户授权的情况下收集用户的多维信息,以预测过期的概率。预测的逾期概率用于风险控制策略或转换为信用评分,例如外国经典FICO分数,国内蚂蚁金融的芝麻信用评分,jd.com xiaobai分数,等等。
购物中心A:除了确定是否使用用户的信用应用程序之外,该分数还用于风险定价,例如配额和利率。
电动机B:行为得分是指获得信用额度后根据用户贷款行为数据的风险水平的预测。
从本质上讲,该模型是事件驱动的模型。在Internet Finance领域,它通常比卡的预测时间窗口短,并且对用户的行为更敏感。除了拦截高风险用户外,卡B还可以用作调整金额和利率的重要参考因素。
C卡:分数收集将判断何时以及如何收集最佳效果。
例如,当用户逾期时,机构应首先敦促谁或用户不需要敦促谁,他们将自动退还这笔钱。收集模型的效果必须节省接收者的成本并增加拒绝率。
前信用风险模型(卡)
在贷款之前,主要解决了用户的访问和风险定价问题,也就是说,面对一个新的应用程序,以确定用户是否符合产品的贷款条件以及相应的贷款金额,价格,定期和其他问题。它主要包括三种类型的问题:
本节重点介绍信用风险建模的演变和创新(一张卡)。
当前的卡构建模型包括以下方面:
好用户和不良用户的定义:
它是A卡的最基本和核心作品,甚至是大多数相互黄金的风险控制模型。样本标签的定义必须与实际的业务场景和战略目标一致,并在不同定义下考虑样本量。
例如,在现金分期付款方案中,您可以提取用户折扣利率(或滚动率)和逾期日趋势分配曲线。在用户逾期n天之后,退货率或滚动率已变得稳定(稳定梯度),然后n可以作为筛查当天上方的不良样本的基础。在某些情况下,例如以前的发薪日贷款,因为整个商业周期仅半个月或1个月,以便加速模型的迭代速度,有时甚至会将7+甚至1+的过期用户定义为坏客户。在某些银行方案中,为了考虑坏账,可以将其定义为90天以上的不良客户。
简而言之,好的和坏用户的定义不能依赖人造体验,应根据场景数据进行数据分析后确定。
样本量表和算法的演变:该机构的业务始于2015年,该模型以多种版本迭代。下表显示了现金分期付款业务中卡模型的演变。在业务的早期阶段,数据数据的数量很小,并且使用特征和使用规则通常是根据相关业务经验确定的。随着数据的缓慢积累,采用一些良好的特征来使用简单的机器学习算法培训;当样本数据的量增加到10,000个级别的一百一百时,请尝试使用神经网络算法自动提取或端到端的风险控制模型培训;从第18年的上半年,升级到更高级的迁移学习系统将在将来继续降落,更尖端的算法精华量优化风险控制模型的过程是,业务已经从Scratch变化,较大的数据量从小变为细小,从厚到细小的特征,模型从简单到复杂,效果从一般到突破。
如图。 6现金分期付款业务卡型号的演变
对模型的评估和监视:
建立模型后,有必要评估模型的预测和稳定性。
看模型效果不能只看ks,KS定义是从0-1概率之间好坏样本累计概率最大差值,c截止)作为策略通过率可能非常低;风险控制不能被视为极端例子。通过调整截止,风险控制几乎可以达到任意期望的过期率,但是通行率将非常低,从而导致上一段中的客户获取,从而导致上一节中的客户获取。成本非常高。业务规模只会保留在少数合格的客户中。
因此,在评估模型时,必须进行基于风险的评估和基于业务的评估。因此,模型评估可以分为三层:
基于上述评估层,还应在相应的分层监视中执行监视。除了上述三个级别外,它还可以监视模型中输入的功能,例如功能的分布和波动率。
前贷款信贷风险模型的开发过程
经历了完全经验丰富的规则模型后,当累积一定数量的数据时,可以使用少量维度和数据来开始训练模型。当数据量很小时,使用简单的LR可以取得良好的结果。
随着数据量的持续增加,身份属性,消费能力,用户关系,信用记录,旅行记录等的特征已经慢慢构建。 GBDT+LR,RF,XGBoost,LightGBM和其他更复杂的算法可以用来使用该字段。本质
当数据达到一定量表时,深度学习将用于执行自动化表示或端到端的风险控制模型。测试DNN后,在同一情况下,该算法类似于GBDT的算法性能。一方面,明显的效果表明,非图像,语音和文本等本地结构并不是特别明显。需要进行一定数量的转换和优化,因此已在网络结构(例如Resnet,fractalnet)的后期使用和转换。与DNN和GBDT模型的效果相比,它有所改善。用户数据分布和开放自然流量的差异是显而易见的。这种现象基本上打破了训练集和预测集合在传统监督和学习中的数据分布的假设基本上被打破了。为了解决这个问题,引入了迁移学习框架。在相同的逾期条件下,可以显着提高通行率。
图7A卡V1-LR模型
图8A卡V2-GBDT模型
图9A卡V3-DNN模型
图10A卡V4-Frank网络模型
图11a卡VX移民学习模型
借贷模型
反贷款的贷款可以分为两类,用户级别和交易水平。用户级别的粒径相对较厚,也就是说,当前的客户确定当前客户是欺诈性客户。不允许欺诈用户在平台上具有交易行为;交易级别更加良好,即根据交易环境,IP,设备和区域判断。交易是否是欺诈交易,如果是的,则不允许执行此交易。
贷款中的反犯罪有3个困难:
①长 - 尾分发:欺诈用户实际上很少
②重大对抗:欺诈用户将找到找到系统和规则的漏洞的方法
③模仿正常行为:欺诈用户将使用虚假的消费流,正常还款和其他行为来放松金融机构的警惕。
在反狂暴领域,除了使用一般机器学习模型外,还建立了基于社交网络的模型系统。
社交网络在风险控制模型中的应用
基于社交网络上的反欺诈,这个想法非常简单:课堂上的事情聚集在一起,人们分为群体。
例如,欺诈可能与之相关(它表现为图上的直接侧连接,这也称为第一个订单亲密关系;或者通过侧面度过的步行),然后这些与这些用户相关的用户他们也是欺诈。如图所示,通过梳理生态学中的关键实体和关系,首先建立了一个巨大的异质社交网络,其中包含10亿级顶点和50亿级边缘。以下是通过算法的社区。
由于社交网络上的数据量相对较大,因此在算法级别上,计算效率的要求也相对较高,与此同时,社区划分的稳定性也有一定的要求。在实际着陆中,LPA和改进的Louvain意识到T+1社区发现。最后,根据分裂的社区,您可以从社区获得各种属性统计信息。这是反欺诈策略的重要参考。当用户到达时,查看其属于哪个社区,请根据社区的属性确定用户是否是欺诈用户。
目前,基于社交网络的风险控制指数系统涵盖了贷款中80%的贷款请求。同时,通过社交网络,关系之间关系之间关系之间关系之间关系之间的关系?收集,提高回收率。
图12关系网络
图13社交网络应用程序的基本过程
风险控制趋势
目前,国内信用报告系统,大数据系统和数据环境仍在逐渐改善,各种数据的质量和可靠性不同,它们是不同的,这给模型和技术能力带来了巨大的挑战。一方面,有必要有能力收集,整理和总结大量数据。另一方面,它还必须能够识别和清洁“污垢”数据以测试“ Sali Gold”。这是基于当前的国内数据获取。就互联网生态环境而言,在电信运营商底层的数据挖掘分析领域中,探索财务风险控制的道路将成为一种趋势。
三个主要风险,两个主要的审计机制,六个主要风险控制产品
一三个主要风险
根据风险目标和场景,此类内容产品的风险主要分为三类:帐户风险,内容风险和数据隐私风险。
1)帐户风险主要是从虚假用户认同和使用真实名称验证的恶意注册的维度设计风险控制策略。
帐户系统风险控制是拦截羊毛党的黑色生产的第一个通行证。为了刷数据融资,一些开始的公司将私下与羊毛党建立联系,以刷新注册量,订单和活动。这是饮酒和淬火的做法爱游戏登录入口网页版平台,而不是本文讨论的范围。
2)内容风险主要基于资格条件,例如许可,版权,以及对文本,图片和视频的三个维度的风险管理和控制。
传统媒体从事新闻和视频节目,有必要获得“互联网新闻信息服务许可”和“互联网视听程序许可”之类的许可。是否拥有相关许可也是平台内容风险的一部分。有数百万道路,第一条道路是合法运作的。经过这么多年的发展,由头条新闻和少量信息代表的汇总信息平台解决了许可问题,版权问题不再是障碍。
内容本身的文字,图片和视频是风险控制的重点。
标题为标题代表的信息聚合平台不会生成新闻信息本身,但是通过算法平台的分发,消费者的分布也需要平台应承担的责任。尽管头条新闻通过获取曲线获得视频许可并解决了许可的风险,但简短的视频爆发太快了。如何在庇护所下进行视频内容控制是头条新闻公司面临的新主题。
在上面,监管镜头引起的主要内容风险,即该应用程序中的政治敏感词汇,黄色赌博毒药或非政治新闻内容。在开发的早期阶段,当应用程序用户很小,用户审查和内容控制。随着用户爆炸的爆发,在尊重算法的公司中,天真认为技术是中性的,算法是无罪的。垃圾内容供算法和用户最终转向失控的情况。
在国王的人工智能和算法的信息时代,我们仍然需要为算法绘制底线以了解安全边界在哪里。同时,“手动”的作用不能低估。在头条新闻和快速的手中,出现了代表中心声音的许多主要媒体媒体大型媒体。在人们的干预下,AI算法赋予了最高的权威和交通倾斜,以传播时代时代的声音。 ,促进积极的社会能量。
3)数据和隐私风险包括技术风险,例如爬虫机制,数据加密和抗黑客攻击。
五年前,当标题刚刚起床时,几个主要的媒体被围困。标题轨没有授权将其他媒体平台的内容捕获到其自己的平台上。反拒绝能力的弱点。
Tmall,JD.com有许多贷款产品,并在线贷款市场上发表了评论。通过攀登Tmall,JD.com和Meituan商人,这些公司被用作营销或贷款服务。除了对E -Commerce场所的数据控制,除了数据反爬行之外,它还具有更多的营销风险。将来,将详细介绍该文章。
最后,用户注册了平台并填写了个人信息。该平台有责任保护未泄漏的用户隐私数据。每年,某个平台的用户数据都会发现某个平台的用户数据在黑市中泄漏。在与黑色生产对抗的过程中,该平台应投资资源来加强风险控制安全系统并采取反诉讼反治疗措施。
2。两个主要的审查机制
审核机制包括系统自动过滤和手动审查的两个主要模块。对于商家BGC和用户UGC平台,首先使用系统自动过滤敏感内容。该系统无法有效地确定人工审核。过程。
在UGC机制上,有以下策略来控制风险控制:无言论的免费观看,注册后的演讲,匿名语音,真实的名称身份验证,帐户/注册时间/注册时间/注册时间说话,专家身份身份验证,专家身份身份验证,实时广播,直播,直播,直播,直播爱游戏app官方入口最新版本,直播,直播,直播,直播聊天室控制Mai的主持人和其他维度。
目前,大多数平台都必须在通过手机号码认证后进行注册和登录。在注册手机号码后,在操作员频道的帮助下完成了弱名认证。这也是视频和社交平台主流帐户系统的真实名称模型。手机号码的弱且真实的名称验证中有许多漏洞。
黑色制作羊毛派对为手机号码提供手机号码。猫池卡池有数千万张卡片,可以轻松获取一组低成本的手机号码真实名称信息。 Internet Water Army和Professional Pavilions是这样的黑色生产卡供应商的大客户。地下黑色羊毛党产业连锁店的劳动过程和组织系统都紧密。
如果涉及交易付款链接,则银行卡的四个因子的真实名称是一个更安全的真实 - 名称验证模型,并且作弊成本比移动电话号码的真实名称高几倍,但是这是只能在E -Commerce平台上使用。为了减少发布阈值以确保用户体验,UGC平台很少需要强大的真实名称验证。
从用户注册和登录到发布新闻,评论和视频,主要的评论链接包括:昵称,化身,真实姓名,UGC信息文章,链接,图片和视频。新闻,评论和视频需求要求实施首次审判的政策,然后进行广播。这种类型的产品表格可以执行[预先预防/审查限制性阻止 - 事件审查可追溯性]的完整风险控制过程。
对于实时广播,您只能实现[及时限制 - 及时 - 及时回顾可追溯性],因此,实时广播申请面临更多的挑战,并且有必要严格检查锚资格审查。参与暴力行为的黄色参与了公众舆论的爆发。
在审计过程中,有以下风险控制处理机制:
1)删除敏感文章,图片和视频。这对于许多微信公共帐户作者来说都是常见的,很容易和谐。
2)用户禁止单词,禁止禁止时间根据严重性设置。在社交平台和聊天室中常见。
3)永久禁止帐户和销售号码。这对平台(例如Mimon)是严重的惩罚。
第三,六个主要风险控制产品
设备指纹,滑块身份验证,真实名称身份验证,黑色单位库,敏感的词库,半监督的机器学习算法,共同建立了一个强大的反将反智能的反智能智能风险控制平台来处理它。
1)设备指纹
设备指纹是指可用于唯一标识设备的设备特性或唯一的设备徽标。它可以准确地识别设备,识别风险设备以及对设备进行聚合和相似性的全面分析。
设备指纹主要包括以下信息:设备IMEI代码,Android_ID,序列号,SIM卡编号,IDFA代码等。它是反治疗和反腐败风险控制模型的重要变量。这些是黑暗的数据。您可以在没有用户填写的情况下完成集合。
在用户感知的层面上,如果在通用手机上打开了支撑件密度付款,则可以在普通环境中支持。如果您更改设备或更改地理环境和网络环境,则需要输入密码或手机验证代码来重新检查安全检查,因为设备指纹信息已更改,这会触发Apeay风险规则控制规则。
2)滑块验证
滑块验证是一种验证代码。它是人类机器对抗作战的识别的关键部分。它主要用于新用户注册,登录和风险控制引擎判断作为风险操作的链接。许多政府网站可以免于登录到相关的数据。例如,公司信用信息宣传系统。为了防止大量爬行动物爬行数据,它还将增加验证代码链接并增加数据爬行的成本。
简单的数字验证代码和图形验证代码很容易被爬行者打破。在过去的几年中,近年来在互联网上相对流行的12306年的图形识别验证代码很难被许多用户识别,但也可以使用深度学习算法来破解。作者还制作了相关的爬虫。困难是需要维护以进行连续维护。验证代码策略更改或网站修订需要优化代码。
目前,最难破坏的是复杂的滑块验证代码,该代码需要高爬行动物算法,对于人工智能而言并不具有成本效益。机智的产品经理思考最简单的方法:人肉破解验证代码 - 手动编码平台,羊毛党通过了需要通过API接口将其识别到编码平台的验证代码,并且编码平台将验证代码分配给在人为确定结果后,许多网络的许多网络 - 时间众筹员返回羊毛党,并完成了验证代码的手动破解。
3)真实的名称验证
真实名称分为弱的真实名称和强大的真实姓名。弱名通常是指验证名称+ID号。可以通过操作员的手机号码进行验证。默认操作员默认情况下已完成了真实名称。验证了单个名称+ID号一致性,接口成本小于1美分。
最常见的真实姓名是银行卡的四个元素验证:名称+ID号+银行卡号+银行保留手机号码,您可以通过卡片完成实现真实的名称身份验证。羊毛派对的作弊成本。
除了自然人的真实姓名外,许多商人还定居并在企业中拥有真实的名字,例如JD.com中TMALL的第三方流行商人。在五个证书统一之后,该公司的实际名称主要验证三个证书:业务许可证,税收注册证书和组织代码证书。同时,为了确保安全性,可以将企业上传到诸如银行帐户开放许可证和合法人员ID文件之类的信息,因为信用增加了信息。如果这三个证书统一,则将使用统一的社会信用代码证书来验证统一的社会信用法规和公司名称的名称,合法人员的名称和合法人员ID号,即验证在企业的四个要素中。
市场上的许多此类验证接口可以在JD Vientiane数据超市中找到。成本比个人更有价值。企业的四个因子接口约为1美元。
4)黑名单
黑名单是一种相对常见的风险控制产品。具体的细分类型包括不诚实的列表,财务可疑欺诈,信贷不佳,多头申请和地址黑名单。您可以累积自己的数据源,以及市场上第三方提供的黑名单数据,并进行多次验证。
对于内容产品,它主要用于帐户注册链接。您可以根据手机号码,ID号和设备ID尺寸的交叉维度自动从源头上拦截羊毛派对的黑名单。
5)敏感的词库
敏感的词库用于过滤UGC含量。它主要用于通过NLP自然语言分析自动过滤,并自动过滤系统。它主要用于文本内容。 If to prevent accidental killing, you can also add a layer of filtering words to the sensitive words, and the system of the sensitive word is automatically deleted. The risk of hitting the filtering word is reminded, and there are manual intervention to decide whether to delete it. For the forums that attach importance to comments and posts, the sealing risk control strategy through the strictness will affect the completion of KPIs of some departments.
For the filtering of the picture, such as the avatar, and the visual Chinese incident, the picture upload review by the founder Chai Jijun responded to the review. You can use OCR to identify the content of the picture content, and then combine the machine learning algorithm and related data to determine whether the picture is illegal.
For small companies, if there is no image recognition and development strength, you can purchase pictures to identify the illegal identification interface. The cost of a single cost is less than a dime. In order to avoid the suspect of advertising, the interface link address is not pasted here.
6) Semi-shapervised lead (SSL)
With the development of artificial intelligence, machine learning algorithms are widely used in the field of intelligent risk control. The algorithm needs to be raised. According to whether the data sample is marked, it is divided into three algorithm models: supervision learning, semi -supervision learning, and unsupervised learning. All the data samples need to be manually marked, the cost is high and the data level is limited. Unsupervised learning and using non -marked data samples for machine learning, which is not convenient to improve the learning effect.
People tried to add a large number of unbeled data samples to the limited number of labeled data samples to learn together to learn, hoping to improve the learning performance, thereby generating semi -supervised learning algorithm SSL.
At present, the six commonly used risk control products are introduced. In the complex risk control structure, there must be many new products and new technologies that are not mentioned. The construction of anti -cheating and anti -junk risk control system is a long -term complex project. Even if it is very powerful, it is inevitable that the black -producing wool party finds vulnerability invasion. The essence of risk control is not to eliminate risks 100%, but to control risks and stop loss at a certain cost.
The investment in risk control resources depends on the importance of each institution to risks. In the era of strong Internet supervision, many content -driven institutions have increased investment in risk control to reduce the company's overall operating risk.