财新传媒

全球个人征信机构的大数据征信技术

2016年09月28日 14:48 来源于 财新网
可以听文章啦!
虽然大数据技术给全球个人征信机构环联带了很多变化,但是并没有给这些征信机构带来业务上颠覆性的改变,商业模式并没有发生变化
刘新海
比利时鲁汶大学获得电子工程博士。此前在布鲁塞尔的互联网公司Attentio和金融分析公司Vadis从事过咨询和数据分析工作,在中国人民银行金融研究所和中国人民银行征信中心从事过博士后研究。目前为某大型金融机构的高级研究员,同时也是北京大学智能金融研究中心兼职研究员。主要的研究方向:征信、信用风险管理、数据挖掘和金融大数据。

  【财新网】(专栏作家 刘新海)由于征信的业务都是围绕着数据展开,所以大数据和征信有着天然的联系。随着全球商业机构清晰地意识到基于数据的决策和运营可以使公司获得巨大利润以及消费者深入了解数据和分析对其享受产品服务和个人身份保护的重要意义,基于个人消费者的大数据及其分析市场的规模正不断扩大。国内市场化征信的启动,使大数据征信(或征信大数据)成为热点话题,据称如果没有大数据的包装,资本市场不会感兴趣。据互联网权威咨询机构IDC估计,2014年全球在大数据及其分析上的投入大于520亿美元,2014-2018的复合增长率将达15%。对大数据技术投入持续增长的基本原因包括以下几个方面:海量数据的不断产生;IT技术和分析能力的发展使数据的处理可以更快捷、更有效,可以为企业的决策和运营提供新的视角;在不同行业和区域中对大数据分析和决策业务的需求越来越强烈。

  2015年6月25日,全球第三大个人征信机构环联(TransUnion)在纽交所正式上市,其招股书中所言环联目前也是一个大数据公司。由于资本市场的普遍看好,开盘当日即以日上涨13%结束交易。其中高盛、摩根大通、美林美银和德意志银行等为此次环联上市的发行商。目前环联的市值估价为45亿美元。本文就将以环联为例,剖析大数据在全球个人征信机构的应用情况,给系统性地理解大数据征信提供一个视角。

  征信机构最基本的作用就是将分散在不同授信机构,碎片化的局部信息加工融合成为具有完整视图效果的全局信息,从中挖掘出风险信息,帮助解决交易过程中的信息不完整的问题,减少风险,降低交易成本,帮助商业机构更加有效地进行决策。而大数据技术有助于将更加分散、碎片化、底层的数据加工处理成为更加完整的全局信息,更加有效地减少这种信息不对称。本文所讨论的大数据技术,不仅限于大数据存储和处理,也不仅限于目前流行的大数据风险评估,而是系统性地对征信大数据进行处理和分析的相关技术介绍。

  类比传统加工制造业,征信机构可以理解为数据工厂,其基本业务流程包括数据采集(数据可以理解为原料,数据采集可以理解为采购,收集原材料)、数据处理(相当于原料粗加工,整理具有一致性,去掉不符合质量要求的原材料,粗加工成基本组件)、数据分析和挖掘(原材料深加工,按照一定的产品模型,由生产线批量生产)以及数据服务(产品进行质量检查,进行包装,提供给用户终端)。在大数据时代,大数据技术为征信发展提供了新的图景,如图一所示,大数据技术可以嵌套在整个征信的业务流程中,同时可以根据大数据服务的需求,不断更新和探索新的大数据来源。此外征信大数据的处理流程中的每一个环节都要兼顾数据质量、数据安全、消费者隐私保护和监管合规性的要求。

1

图一 征信大数据应用流程

  大数据的采集: 越来越多分散的、不同领域的数据源

  大数据为征信活动提供了一个全新的视角,基于海量的、多样的、交叉互补的数据,征信机构可以获得信用主体及时、全方位的信息。环联运营多年,已经使其建立了包含信息量丰富而且独特的数据源。环联目前拥有30P数据,包括金融数据、信用数据、可替代数据(Alternative data, 包括电信预付费、电商、社交网络、心理数据等)、身份数据、破产数据、抵押物数据、法院判决数据、保单数据、汽车数据以及从近90000个数据源抽取的其它数据,有全球超过10亿的消费者,从2010年开始以超过25%的速度扩张。环联的大数据资产如图二所示,主要是四个方面组成:

2

图二 环联的征信大数据来源

  传统的信用数据:环联最基础的数据资产是信用数据库,基本上涵盖了所有美国信用活跃(有信用交易)人口的姓名、地址、现有信用关系和支付债务时间表。该数据库中的信息是由成千上万的信用授予机构和数据提供商自愿提供的,传统的信用数据库支撑环联的基础的征信业务。

  替代信用数据:替代信用数据是指除了消费者信贷数据之外的信用交易相关数据,可以在消费者的信贷数据缺失的情况下,代替作为消费者信用描述和信用评估的手段,也可以作为一种增强信用评估的方法。替代信用渠道(如租赁支付和公共设施支付)拓宽了传统信用数据库的范围。例如环联拥有巴西最大的替代数据库,包括巴西联邦税务署的税务记录信息等上百个数据库和邮政编码(有1亿9千万的个人和2900万的公司的数据)。

  消费者公共记录:环联从法庭、政府机构和其他公共记录(如诉讼、抵押、判决、破产、专业许可、房地产、车辆所有权、其他资产、违规驾驶、犯罪记录和联络信息)中获取数据。例如环联在印度可以获得国家选举登记处(7.5亿记录),国家ID数据库(超过5亿记录)的信息。2013年12月,收购了TLO公司的资产(该公司利用个人鉴定、欺诈保护和债务找回的公共记录数据开发了数据产品)。2014年11月,环联收购德国DHI公司(交通违纪和犯罪审判的数据提供商)。在南非,环联获得交通设备数据库(包括超过1800万车辆记录和特殊车辆识别码,是南非最全面的车辆数据库)。在国内央行个人征信系统,替代信用数据和消费者的公共记录统称为非银行征信数据。

  专有数据库:环联用复杂的算法生成自己专有的数据库(proprietary database),提炼并对数据进行标准化。这些数据是区别于其它竞争对手的,包括驾驶员违章记录、医疗资格信息、商业数据和房租交付信息等信息。

  上述征信数据库受到监控,定期更新、复核。环联通过每月差不多36亿条记录的更新量来保持数据的鲜活度。理论上和个人消费者的经济行为相关的数据都可以采集,但是环联在选择这些的大数据时,起码要满足以下标准:(1)合规性,满足征信机构监管要求(包括信息安全和消费者个人隐私方面的规定);(2)数据是活数据,可以及时更新;(3)数据是可以信赖的数据(Trust data),从可靠的,具有公信力的数据源获得;(4)数据质量要保证,保证数据能够正常使用。此外征信机构的数据或信息在被商业机构使用的时候常常要和本地的大数据做进一步的整合才能更好发挥作用。

  大数据的处理:强大的匹配连接能力和下一代技术

  征信数据规模变大,更新加快,类型复杂,需要有别于传统工具的新技术方法来完成数据处理和分析任务。

  基础大数据技术:环联有庞大复杂的大数据资产,需要有配套的大数据处理技来支撑。环联自主研发了基础征信大数据技术,,这为快速执行环联的应用和解决方案的更新提供了灵活性。环联目前已经利用Ab Initio (大数据处理软件平台技术)、Hadoop(开源分布系统的基础架构,适合处理超大量的数据)、Netezze(IBM 基于数据仓库的分析技术)、Hadar和其它一些大数据分析和可视化技术来应对海量的数据(30PB)、分散的数据源(90000个数据源)和不同的数据格式(超过4000多种数据格式)。环联的大数据技术可以处理、组织和分析跨越多个运行系统、数据库和文件类型的海量数据,同时处理快速变化的结构化和非结构化数据,加上每天数十亿的交易和数以兆计的数据交换。环联的大数据技术提供了高度的适应性,高效率和客户定制化,对于环联的解决方案,配合一些专业技术(例如图形化开发和业务规则环境),可以方便地和客户的工作流程整合起来。

  增强的数据匹配连接能力:在大数据时代,征信数据源变得更加多样,需要强大的数据匹配和连接技术,提高数据的价值,使对消费者的描述更加完整和更加精确。大数据的商业价值实现关键技术之一就是匹配、连接和整合不同类型、不同来源的数据,如图三所示:首先找到多个数据源中信息对应的消费者,然后匹配消费者具体的信息项,将可能存在冗余的信息项进行合并和剪裁,得到消费者的全面、统一的视图。

3

图三 征信大数据匹配技术原理

  环联的数据匹配技术能够整合多个数据源,连接多种信息,产生新的数据集,更好地评估风险和进行数据挖掘。例如,环联TLOxp解决方案利用数据匹配能力(来自于不同数据源)来确认和调查不同人之间、资产之间、位置之间和业务之间的关系,提供尽职调查、威胁评估、身份验证、欺诈预防和检测的解决方案。在巴西,环联利用数据匹配技术连通巴西联邦税务署(税务记录信息)等上百个公共数据库和邮政编码。在印度,环联可以获得征信机构CIBIL(Credit Information Bureau [India] Limited)的消费者风险信息该信用数据库包括超过两亿的个人消费者和超过1000万的企业主体的信息。

  下一代技术:环联正在投入研发以大数据为特征的下一代征信技术,希望通过下一代技术的转型继续提供面向企业和消费者的服务,使得数据吞吐量增加,数据匹配能力提高,有较高的适应能力和较低的运营成本,更高的效率,保证更快的市场响应,例如使数据建档,数据清洗,数据入库的速率提高10倍,由非IT人员自助完成,大幅度降低新产品的生产周期。

  新技术探索:近期,环联和南非一家高科技公司共同筹建南非国家声纹库,研发声纹识别技术进行消费者身份识别和反欺诈。据称,这种基于声纹技术的身份验证技术比传统基于知识(也称为钱包外问题)验证消费者身份的方法)效率提高80%。环联对生物识别的前沿探索目前还处于早期的研发阶段。

  大数据挖掘和分析:挖掘潜在信息和模式,释放大数据价值

  征信机构早期的征信数据挖掘外包给费埃哲公司(Fair Isaac Corporation简称FICO),最成功的案例是FICO信用评分。随着数据分析技术的提高和普及,环联和其它几家征信机构开始建立自己的分析师队伍,开发自己的评分产品。但是由于历史传统的原因,征信机构还和FICO公司继续合作,向商业机构提供信用评分服务。

  从理论上讲,随着大数据的积累,信息越多可以提供更好的风险评估;在实际中,随着平台的多样化、商业模式的多元化的不断深入,商业实体之间的关联性的加强,风险和商业机会的复杂性也在不断地增加。大数据技术可以在消费者或信贷产品(组合)水平上进行风险测量和管理,使信用审批和定价更加精确。在图四展示了《经济学人》关于大数据在金融风险方面应用做的调查,其中大数据在防范信用卡欺诈和减少违约率方面效果最好。环联利用大数据分析技术解决来自于多个信息渠道,复杂海量的信息处理问题,提高风险模型的预测能力和稳定性,以及实时响应速度,帮助它的顾客在信用和风险管理中做出及时的决策。

5

图四 大数据在金融分析中的应用效果调查(来源于《经济学人》)

  为了充分释放征信大数据的价值,环联已经通过在技术、工具和人力资源方面的投入来研发复杂和灵活的分析和决策能力。

  开发新的分析技术:环联的分析师利用下一代技术和数据匹配能力来实时读取来自于不同数据源的数据并分析这些数据。一般来说,分析师能够在一天之内利用自服务的数据接口产生模型开发、模型验证和用于客户分析的数据样本。分析师配备有不同的建模和分析工具箱(例如可视化和机器学习)。例如环联的团队能够在环联CreditVision解决方案中对一个新的贷款组合建模,大数据分析技术的工具只需要不到一天的时间,而传统工具和技术的开发时间则是4到5周。

  分析团队:在大数据时代、征信业发展涉及海量数据的存储、加工、处理、分析,需要大量的经济学、数学、计算机等各类型的高级综合型专业人才。环联拥有经验丰富的分析团队(一般都是高级专业人士或者是博士学位获得者),拥有大量的行业经验并且对消费者信用数据有着深厚的知识储备。

  研发分析工具:数据分析工具是挖掘和分析征信数据的通用的基础软件组件。环联开发的分析工具包括基本预测模型和评分、消费者细分、业务标杆比较、欺诈建模和运营最优化等,能够满足特定的客户需求。

  大数据服务:丰富多元化的数据产品、个性化、更好客户体验的征信服务

  征信大数据使提供更多的信息服务,面向更多领域提供了可能,大数据之间的交叉融合更拓宽了征信产品和服务的广度和深度。环联通过提供综合的数据,先进的分析技术和决策能力的服务,帮助客户提高效率、管理风险、降低成本和增加收入。大数据使环联征信产品更加丰富、多元、及时和动态化,考虑不同客户群体的细分需求,提供更加个性化、更好客户体验的征信信息服务。大数据带来了相比传统征信机构更广阔的服务范围:环联的服务业逐渐由面向金融服务业转向例如保险、汽车、医疗护理、电信、零售、出租审查、消费和法律执行等经济和社会领域。在每一个领域,环联都帮助顾客做出关于信用和风险管理的及时决策。

  基于特别的数据资源、分析和决策服务,环联近期研发的征信大数据产品和服务示例如下:

  面向金融机构用于的征信产品CreditVision:基于消费者的信用大数据,给机构客户提供一个消费者这在一定时间窗口的风险变化趋势,不同于传统的信用报告只提供当月时点数据的服务,该产品基于30个月的时间序列数据,说明客户风险随时间变化的速度和严重程度,更精确地划分了风险。

  面向保险公司的征信产品DriverRisk:整合司机的历史上至少三年的违规记录和其它大数据,高效地识别司机的违规的可能性,从独特的视角来考察司机的风险,可以降低保险公司的成本。

  面向商业机构的市场营销产品AdSurety: 基于环联自身的大数据,利用O2O(互联网数据和数据库数据)匹配技术,帮助机构用户从包含1亿3千5百万美国消费者网络中识别潜在顾客,显示其个人信息并且测算效果,增加了找到目标顾客的可能性。

  面向商业机构用户的决策分析产品Decision-Edge:是一款软件即服务的产品,允许商业机构客户在和消费者交互情况下识别并验证消费者用户,并对数据和预测模型的结果进行解释,根据机构客户定义的消费者用户标准来帮助实现实时和自动化的决策。

  小结

  尽管对于大数据的定义工业界和学术界众所纷纭,但是无论按照哪种定义,环联和其它全球征信机构都是典型的大数据公司:拥有典型的大数据(30P的数据量,每年以25%的速度增加,超过10亿人的信用记录);数据类型丰富(90000多个数据源,超过4000种的数据格式);数据更新速度快(每月差不多36亿条记录);最重要的是环联的征信数据中蕴含着大价值,丰富的消费者的消费模式和信用信息,可以用于信用信息服务、市场营销、决策分析以及为消费者本人提供信用管理服务等。 环联的大数据技术的应用是一个综合性的过程,是从数据采集、数据处理、数据分析与挖掘到服务的一个一体化的过程。随着业务的发展,今后环联的征信大数据增长主要从两个维度延伸:海外征信业务的发展增加消费者的数目;数据源的不断扩充并快速增加消费者的信用描述,如图五所示。

4

图五 征信机构的数据变化趋势

  目前环联的大数据是以结构化数据为主,基本不涉及社交网络、微博、论坛、互联网行为数据等非结构化数据,当然一方面与美国的数据专业化运营和数据开放的大环境有关,另外一个重要的原因其世界本质上是结构化的,风险和商业信息首先主要隐含在结构化的数据中。因此,本文认为征信大数据的研发应首先解决好结构化大数据的处理和分析问题,挖掘出主要的风险和商业信息。虽然和国内流行大数据征信比较起来略显保守,但是由于其深厚的数据资产和征信技术的积累,环联对大数据技术的应用整体来看一个自然的过程,根据数据信用相关性逐步扩张 目前已经开始研发以声纹为代表生物识别等这些未来和征信相关的大数据。

  虽然大数据技术给全球个人征信机构环联带了很多变化,例如数据量的增大、数据类型的增多、处理技术的提升、分析能力的加深、服务范围扩大和征信产品的丰富,但是并没有给这些征信机构带来业务上颠覆性的改变,商业模式并没有发生变化,主要商业内容还是从基础信用信息服务、市场营销、决策分析到消费者的信用管理与反欺诈服务等。不过正如每一次数据技术的突破都会带了征信机构带来更多的创新和颠覆,例如数据库技术和数据挖掘技术,未来的大数据技术不仅会延伸以环联为代表的全球个人征信机构的信用信息服务的广度和深度,而且未来有可能会带来一些商业模式上的变革。

  (本文原载于《中国征信》,2015年第10期,题目为:全球个人征信机构的大数据征信技术)

责任编辑:张帆 | 版面编辑:张柘
财新传媒版权所有。如需刊登转载请点击右侧按钮,提交相关信息。经确认即可刊登转载。
全选

新闻订阅:订阅后,一旦财新网更新相关内容,我们会第一时间通过发邮件通知您。

  • 收藏
  • 打印
  • 放大
  • 缩小
  • 苹果客户端
  • 安卓客户端
财新微信