「信」视角 | 美国征信替代数据的应用与启示-河北省信用网

「信」视角 | 美国征信替代数据的应用与启示

日期：2021年11月5日
浏览：9232次

摘要：现代化征信体系下，作为传统信用信息有益补充的新型生产要素，替代数据在征信支持普惠金融发展方面取得了显著成效，但准确认定并妥善治理替代数据的问题亟待解决。通过分析美国替代数据对信用评分制度的修正路径，对我国替代数据发展提出加强顶层设计、注重隐私保护、明确采集原则和方式、形成多方共治格局等建议。

关键词：征信；替代数据；数据治理；信用评分

近年来，在“政府+市场”双轮驱动现代化征信体系下，征信替代数据对传统借贷数据进行了有益补充，并在征信支持普惠金融发展方面取得了显著成效。作为一种新型生产要素，征信替代数据的应用能够进一步满足近8000万信用“白户”的金融诉求。利用替代数据为金融和经济活动提供信用管理服务，在本质上属于征信活动，需要纳入征信监管。但中国人民银行2021年1月公布的《征信业务管理办法（征求意见稿）》（以下简称《办法》）中有关替代数据的界定、采集方式、功能等规定尚存在不清晰之处，准确认定并妥善治理替代数据的问题亟待解决。

美国征信行业距今已有150余年的发展历程，逐步构建了以《公平信用报告法》（Fair Credit Reporting Act）和《平等信用机会法》（Equal Credit Opportunity Act）为核心、10余部法律在内的监管法律体系。随着大数据时代美国个人消费信用评估公司信用评分（以下简称FICO评分）陷入现实困境，美国大型互联网、金融科技公司在直接或间接助贷服务中对替代数据的应用较为广泛，走出了一条扩大信贷包容度、降低信贷成本、减少信贷歧视的修正路径。其独具特色的治理体系对加强我国征信行业顶层制度设计、规范信用数据采集原则与方式、推动形成多方共治格局等有着重要的借鉴意义。

一、

我国征信替代数据发展现状与现存问题

1（一）

发展现状

替代数据与数字化手段的深度结合是解决信用“白户”真实金融诉求的助推器。截至2020年末，中国人民银行征信系统共收录11亿自然人、6092.3万户企业及其他组织，其中小微企业3656.1万户、个体工商户 1167 万户。但仍有约 8000 万户小微企业、3500万个工作五年以内的毕业生、6000万个民政低保人群等重点群体为信用“白户”，而征信查询总量中小微企业占比高达60%。截至2020年末，百行征信累计拓展金融机构1887家，替代数据源渠道数30个，基本实现基础替代数据源的广泛覆盖。

《办法》对信用信息范围的扩张使得征信替代数据能够被纳入信用信息范围。《办法》第三条将“信用信息”定义为“为金融经济活动提供服务，用于判断个人和企业信用状况的各类信息。包括但不限于：个人和企业的身份、地址、交通、通信、债务、财产、支付、消费、生产经营、履行法定义务等信息，以及基于前述信息对个人和企业信用状况形成的分析、评价类信息”。因此，作为能够用以辅助判断信用状况的信用数据，替代数据能够纳入前述信用信息的范围。以个人征信为例，可依数据覆盖度与可采集性归纳出六类现有实践中的替代数据（见表1）。

中国人民银行在2020年底召开的“长三角征信一体化”工作推进现场交流会上指出，市场化的替代数据征信信息互联互通是当前构建全覆盖社会征信体系的重要步骤。同年12月获准成立的朴道征信有限公司专注于借助替代信用数据，向“白户”与“准白户”等缺乏信贷记录群体提供有效金融服务。

2（一）

现存问题

第一，顶层设计的不完善限制了替代数据的发展。已出台8年有余的我国《征信业管理条例》《征信机构管理办法》难以满足数据产业飞速发展的需要和覆盖征信长尾群体的现实需求；《办法》未来作为中国人民银行出台的部门规章，其法律位阶较低，导致现有先进地方实践经验难以总结与推广。

第二，征信对象数据权益未得到充分保护。《征信业管理条例》也仅有第三条的宣誓性规定。数据化后的个人信息一般仅经单次授权，却存在无穷采集、无限使用的弊病。

第三，替代数据采集标准尚不清晰。《办法》第五条要求征信机构采集信用信息应遵循“最少、必要”原则，且不得过度采集。征信替代数据采集适用与传统信用信息同一标准，必然难以发挥其通过非主流信用数据包容评价信用“白户”的功效。

第四，替代数据监管权责、采集方式亟待明确。其“非标准化”特点背后，存在着中国人民银行与其他监管部门权责划分不清晰、数据采集与处理标准缺乏透明规范、“全面持牌”要求之下牌照等级划分不明确等问题。

上述问题的产生，一是因为金融科技时代下征信行业处在转型发展阶段；二是与当前数据确权与处理问题尚未解决息息相关。征信行业处在传统信用数据采集渠道与来源无法覆盖征信长尾群体的“尴尬期”，催生出市场化机构对这一过程的革新。但市场化机构对替代信用数据的采集与处理难以满足个人数据保护的要求，也更难推动信用数据的共享，导致信用的扩张评价与数据的安全保障之间产生了现实冲突。体现这一冲突的典型例子，是《办法》第五条“最少、必要”原则与第三条所述信用信息范围扩张之间的矛盾。

二、

美国征信替代数据的发展背景与含义阐释

1（一）

以FICO为代表的自动化信用评分对传统征信的变革

美国现代征信业始于以FICO为代表的自动化信用评分的推广。20世纪初，由信贷专员人为评估信用的方式决定了贷方（Creditor）在信贷过程中的主导地位，但此方式难以保证信用的准确性。一方面，高强度、高负荷的工作自身容易出现错误；另一方面，较强的人为因素使得申请者的性格、行为甚至与信贷专员的私人关系对结果影响较大，甚至会超过申请者自身的财务状况因素。

1956年，FICO率先向零售商店及银行提供了信用度计算公式，运用公式能够得出对申请人财务状况和信誉度的量化评分。20世纪80年代后期，FICO研发的自动化信用评分代替了原有计算公式，并沿用至今（见表2）。

尽管这一方式招致了业界对数据管理准确性和算法歧视方面的批评，但毫无疑问，FICO自动化信用评分相对于传统征信方式取得了巨大成功，Transunion、Experian 和 Equifax 等信用评级机构（以下简称三大评级机构）均依赖FICO所提供的算法模型推出各自的信用评分。截至2010年末，超过90%的贷方使用FICO信用评分作出贷款决策。

2（一）

大数据时代自动化信用评分的现实困境

自1989年推出至今，FICO信用评分的衡量指标及权重基本没有变化，自动化信用评分暴露出金融包容度较低、准确性和关联性质疑、特定群体陷入低信用恶性循环等诸多现实问题。

1. 较低的金融包容度产生“信用隐形”

自动化信用评分的金融包容度较低，产生了严重的“信用隐形”问题。信用隐形者主要包括两类群体：一是未被传统银行体系纳入的群体；二是信用历史空白的年轻人。实证研究表明，约有2600万美国成年人属于信用隐形群体；除此之外，有1900万人因信用记录不足而无法被评分。

一方面，现有征信数据种类的局限性导致难以将大量中低收入群体、年轻人纳入在内；另一方面，申请新贷款时需要依据的正是信用评分，导致信用隐形群体在通过主流借贷产品难以获得较低利率贷款的情况下，转而求助于高利率、条件严苛的发薪日贷款等产品。但此类产品没有被纳入三大评级机构的评分范围，及时还贷也难离“信用隐形”的尴尬境地。

2.自动化评分准确性和关联度遭受质疑

受限于评价指标单一、评价方式不当的固有弊端，自动化信用评分陷入准确性和关联度的质疑。一方面，消费者信用评分是不准确甚至“任意得出的”。26%消费者的信用报告存在错误，其中13%的消费者信用报告的错误严重到使其信用评分偏差25%；1%～3%的消费者被归入相距两个或两个以上的评分类别。另一方面，信用评分体系内的部分指标与信用度的关联性较小，降低了信用评分的可预测性。例如，被认为与消费者信用度毫无关系的主动降低信用额度的操作，会直接导致信用评分的下降。

3.特定群体陷入低信用恶性循环

信用评价指标的单一与评价方式不当产生了对特定族裔、中小企业等群体的歧视，使其陷入低信用恶性循环。FICO得分低于620的非裔是白色人种的三倍；西班牙裔和非裔中拥有次级贷款信用评分占比分别为 31.5％和 45.1％，远远高于白色人种的18.3％。

首先，次级贷款相较于优质信贷工具通常会导致更高的违约率，而因为历史因素，非裔往往更加频繁地使用高利率次级贷款，导致该群体“负重前行”；其次，特定族裔，比如拉丁裔等的传统消费习惯决定了其更偏爱使用现金而非信用卡作为支付工具，这些特定群体的固定消费习惯无法影响信用评分；再次，中小企业由于无法填报美国国税局W-2税务申报表格，导致其在传统信贷评分中处在较为不利的地位。

在上述原因的作用下，特定群体不断地承担原有违约记录的负面影响，陷入“选择有限信贷工具中的劣质贷款、贷款选择和还款记录被评价为低分、信贷工具继续受限制”的恶性循环。

3（一）

美国征信行业替代数据的含义与类型

替代数据（Alternative Data）又称非传统性数据（Non-traditional data），目前美国尚未形成对替代数据较为统一的定义。美国金融消费者保护（Consumer Financial Protection Bureau）认为，替代数据是指任何的非传统数据，对替代数据的使用是描述性而非规范性意义上的，并认为传统数据和替代数据之间可能没有泾渭分明的界限。

美国联邦储备委员会（The Board of Governors of The Federal Reserve System）认为，替代数据是全国信用评级机构的消费者信用档案中通常找不到的信息，或通常由消费者作为信贷申请的一部分提供的信息。美国国会研究服务中心（Congressional Research Service）认为，替代数据是指用于确定消费者信用度、且在三大评级机构用以计算信用评分的数据源之外的信息，包括传统信贷文件中通常不包含的其他消费者财务数据。

国际组织对这一问题也有过探索。国际征信委员会（International Committee of Credit Reporting）将传统数据定义为个人履行其财务和其他类似义务的历史，并认为替代数据是通过技术平台收集的可随时获得的数字化信息。世界银行（The World Bank）认为，替代数据并无普遍接受的统一定义，但认为“通过数字手段获得大量的数据”是一种共识。

本文倾向于美国征信行业将替代数据定义为：并未纳入主流评级机构信用档案的、通过数字技术可获取的、具备信用性的信息。替代数据有着动态发展特征，与所在地区经济水平、金融科技发展水平具有强相关性。回溯2005年，美国信息政策研究所的报告预测了未来替代数据仅包括三类（见图1）。

与如今较广泛的替代数据类别相比，能够清晰地体现十几年间替代数据范围的变化（见表3）。

随着金融科技不断发展，美国对征信替代数据的应用持续深入。截至2020年末，美国利用经过验证的替代数据提供解决方案的公司总数为31个，较2010 年提升了 181%；其中利用经消费者许可数据的机构数量增速最高，由3家增至19家（见表4）。

三、

以《公平信用报告法》为核心的美国征信替代数据监管

1（一）

对征信数据的监管

作为 1970 年颁布的美国“最古老金融隐私法规”，《公平信用报告法》旨在实现以下两大目标：一是通过限制信用信息的披露与适用以保障消费者的隐私；二是确保消费者报告的公平性。征信替代数据适用《公平信用报告法》的监管，该法第603（d）款所规定消费者报告包含的信息范围较大，包括任何有关消费者信用度、信用状况、信用能力、性格、一般声誉、个人特征或生活方式的可识别的个人信息等，很少有消费者信息不属于该定义的范围。

就征信数据的采集标准而言，美国政治经济研究理事会将覆盖度（Coverage）、集中度（Concentration）和信用性质（Credit-like）作为选取替代数据源的最相关标准，该种“3C”标准较为准确地把握了替代数据源的采集特征。鉴于数据收集的可行性与效率，覆盖度 90%以上是其认为纳入数据源考虑的前提条件。

2（一）

对征信机构的监管

1.《公平信用报告法》下的征信机构

《公平信用报告法》第603（f）、604条将消费者报告机构（Customer reporting agency）定义为“为向第三方提供信用评级报告而收集或评估消费者信用信息或其他消费者信息的实体”。第 603（d）（1）条认为“消费者报告”是“使用或计划使用或收集信息”以确定消费者符合“信贷、保险和就业（包括背景调查）”资格。根据《公平信用报告法》，任何收集与使用替代数据、并将该数据提供给第三方的非直接贷款人都能够归入该定义范畴，包括三大评级机构及其他各类金融科技公司。

《公平信用报告法》607（b）条确立了消费者报告机构的三项义务：一是内容准确，要求信用评级机构遵循适当的程序，确保信用报告的准确性；二是信息披露，要求其制定“让消费者了解报告内容”的程序；三是救济措施，要求允许消费者对错误信息提出异议，且因与消费者发生争议导致某些负面信贷信息被删除的，需在五日之内书面通知消费者。

2.《平等信用机会法》下的贷方

《平等信用机会法》旨在保障征信领域的公平待遇，该法 202.2（m）条规定任何“在正常业务过程中定期参加信贷决定（包括设定信贷条款）的人”均可视为贷方。贷方可以划分为三种类型：一是定期延长、续期或继续信贷的人；二是定期安排延长、续期或续期信贷的人；三是参与延长、续期或继续信贷决定的原始贷方的任何受让人。传统信贷机构及机构中各类员工应属《平等信用机会法》中的贷方，而采集和处理替代数据的科技公司则属于该法规定的第三种贷方类型。

3（一）

对征信交易行为的监管

对替代数据的收集和使用的机构及其业务都应当适用《平等信用机会法》。就规制行为与覆盖范围而言，《平等信用机会法》202.2（m）条认定的信贷交易行为范围非常宽泛，如提供信贷条款、提供信用信息、撤销或更改或终止信贷等程序均包括在内。

实践中，违反《平等信用机会法》的征信交易行为主要有两种：一是对潜在贷款人的差别待遇，包括“从公开的歧视到更微妙的待遇差异”。二是差别性影响。差别性影响的判断禁止使用表面上中立的标准，但却会导致在没有“合法商业需求”情况下对潜在借款人的差别性对待。这对大数据征信机构开展业务提出了较高的标准，要求其注意到潜在贷款人各类差别以论证其“商业需求”合理性。

CFPB于2013年1月制定了B条例并适用于《公平信用报告法》及《平等信用机会法》，其中规定的“不利行动”的制度较为值得借鉴。B条例第2（c）（1）条规定，贷方采取如下三类“不利行动”时应进行信息披露：一是拒绝以申请中的金额或条款提供信贷；二是信贷账户及其条款的中止或负面影响；三是拒绝增加申请人的信用额度。

B条例第9（a）（2）（i）、（ii）条进一步规定了贷方需要披露与“不利行动”有关的内容，包括贷方基本信息、贷方监管机构基本信息、采取该行动的声明，以及最重要的一项：告知申请人有权获得具体原因陈述的权利，对所采取行动具体原因进行陈述，可获取此信息的联系人及联系方式。在此基础之上，《公平信用报告法》第615（a）条额外要求贷方披露对信用评分造成不利影响的关键因素。

4（一）

《公平信用报告法》的局限性

第一，有观点认为该法并未对征信替代数据的信息类型进行限制和细化，消费者难以有针对性地了解信用评分的决策依据与评分改进措施。第二，庞大的数据量与非透明的算法下，《公平信用报告法》能否达到所建立起的高透明度与及时通知的标准还需观察。第三，《公平信用报告法》的争议解决措施未能满足消费者及时纠正信用报告错误的诉求。

在Judy Thomas诉TU案中，Thomas自1996年首次发现信用报告中存在错误后的6年中，不断地要求信用报告机构修正信用报告未果，最终获赔 530万美元，而这仅仅是遭受此类事件中获赔成功的少数案例。第四，算法的不透明性使得贷方难以给出B条例下“不利行动”的具体原因以及关键因素，这一点在替代数据的应用中尤为明显。

四、

应用替代数据对美国信用评分体系的修正

1（一）

扩大信贷范围，消除信用“白户”

替代数据能够帮助增厚“信用隐形”群体信用档案，拓宽提高信用评分与获取优质信贷的渠道。少数族裔、青年人和收入较低的群体可以通过更多途径来赢得信用评级机构的“信任”。例如，学生群体可能并没有太多申请贷款、还款记录，但其丰富的社交网络信息、电商消费习惯甚至成绩单等信息，都能够充分反映其所受的教育水平和理性程度，以便赢得相较传统评分下更高的信用评分。

2019 年美国联邦储备委员会等机构联合声明，替代数据能够扩大没有传统信用历史的消费者获得信贷的机会。2020年美国政府审计署调查发现，约50%的受调查人群在做出信贷决定时使用了替代数据，替代数据的使用的确能够达到拓宽信贷渠道的效果。

2（一）

控制信贷总成本，降低不良贷款率

替代数据的应用使得信贷成本及利率大大降低。

第一，替代数据使征信流程进一步简化，征信成本显著降低。大数据征信系统的完善能够优化公司内部人力资源结构，使得大量前台信贷人员被算法工程师所替代。而更加线上化的运营也会免去高额租金成本。金融科技贷款能够加快贷方的信贷决策流程，并使借方能够获得更低价格的信贷。

第二，能够将小部分不良贷款从风险贷款中分离，提升贷款定价合理性，引导信贷成本的进一步降低。Experian 的研究报告指出，即便该笔贷款属风险贷款大类，但更加丰富的信贷评分档案也能够在降低贷款利率方面有改进。

第三，更加完善的信用承销模型使得不良贷款率走低，贷款定价同步降低。替代数据的应用使得信贷批准率提高 15%，而违约率同比减少12%。第四，金融科技贷款人的业务范围通常聚焦于年利率低于36%的小额贷款，该类贷款逾期率较低，更易实现信用累积的良性循环。

3（一）

减少非算法歧视，提升信贷公平性

大数据分析有助于消除人类决策中固有的主观性与认知偏见，促进创新和实质公平。特定群体从替代数据中的获益已经远远超出了预期。美国政治经济研究理事会的研究表明，非传统数据的使用使拉美裔、非裔、25岁以下群体的信贷接受率分别上升了22%、21%、14%，较之以往有较大幅度的提升。

替代数据的应用必然需要机器学习和算法来生成信用报告，算法歧视的现象也引起了较为广泛的讨论。大数据时代替代数据的贷款有可能会“复制现存歧视的方式”并“反映决策者或社会生活中一直存在的歧视”。2018 年欧盟研究认为，算法学习能够产生借款人的信息组合，这种特定信息组合会无意识地歧视社会弱势群体。

征信行业发展趋势决定了替代数据应用的必然性，而如何处理算法歧视的问题并非仅仅存在于征信应用替代数据的过程之中，也是未来大数据征信所亟须解决的问题。尽管无法消除算法本身导致的歧视现象，但相较于以往机械的人工审核方式以及固定指标数十年不调整的传统评分方式，替代数据的多维度分析仍然有助于大幅度改善非算法歧视的现象。

五、

完善我国征信替代数据发展的建议

加强顶层设计，注重隐私权益保护

一是应当立足大数据征信业务中替代数据的应用趋势，推动出台征信管理法律法规，将现有行政法规、部门规章、地方先进经验总结吸收上升为法律，从法律层面明确替代数据含义、特征及数据采集与处理方式。

二是以《个人信息保护法》为基准，构建征信对象权益保护配套措施。明确替代数据用于征信应当秉承合法、正当、必要和诚信的原则，确保数据采集的明确性、相关性，并在此基础上进一步明确数据这一生产要素的权利归属与流转问题。

三是细化《办法》第三十八条规定的欺诈认定标准与异议处理流程。一方面规定较为严格侵权处罚标准与行业禁入名单；另一方面实施征信对象机构申诉与部门投诉双渠道异议处理制度，最大程度确保对信息采集错误、违法违规等侵权行为的高效处置。

四是尝试构建征信机构对征信对象作出“不利行动”及时通知制度。建立这一制度对征信机构市场化程度与规范化运营有着较高的要求，可借鉴美国B条例的相关规定，从完善欺诈认定与异议处理制度出发，分阶段推进。

2（一）

明确采集原则，构建“4C”标准

解决《办法》第三条所述信用信息范围扩大与第五条“最少、必要”原则之间的冲突，可以对传统信用信息与征信替代数据之“最少”“必要”作不同理解与适用。对替代数据而言，应重点判定信用信息的强身份相关性，与信贷偿还行为相关的结构化信息（包括正面信息）应视为与身份信息相关，以此寻求在该原则下对替代性数据的扩大解释。

具体来看，应当依据“4C”标准判断某项数据是否适合纳入征信替代数据的采集范围。

一是合法性（Compliance）。从微观层面来看，在替代数据进行信息采集、整理、加工、储存过程中应当维护信息主体的合法权益；从宏观层面来看，该过程符合现有《民法典》《个人信息保护法》《办法》等所构建起的个人信息保护与征信法律体系。

二是信用性（Credibility）。较为精确地反映消费者的信用状况并预测其未来的还款能力，也是替代数据与原有传统信用数据融合交互的基础。

三是覆盖度（Coverage）。较广泛的覆盖度保障了替代数据的采集可得性，也是数据源充分反映居民与企业信用状况的基础。

四是可控性（Controllability）。可控性是微观层面数据合法的体现，更是优化和追溯数据采集、整理、加工、储存及后续提供信用服务等环节的必然要求。

3（一）

规范采集方式，着力解决三项难题

替代数据采集与处理呈现出信息质量差、权益保障难、数据共享少的三大现实难题，应结合替代数据采集的“4C”标准，着力构建起标准化数据采集方式。

一是应从底层技术层面入手，构建高效、准确、可解构的数据采集处理算法技术，并尝试建立替代数据真实性交叉验证机制。

二是在《办法》现有全持牌要求之上建立分级持牌机制，持一级牌照的征信机构可以收集全部征信数据，持二级牌照的征信机构须在中国人民银行进行备案，并只能够收集征信替代数据。中国人民银行应主导建立分级持牌机构名单的统一公示与查询系统，便于征信机构与对象进行查询。

三是要加快市场化机构间以及机构与中国人民银行征信系统间的数据对接与共享。可借鉴欧盟《数据治理法》（DGA）立法提案所建立的二次利用架构，由监管部门出台配套制度，规范信用信息使用及共享指导建议。同时，发挥朴道征信与百行征信差异化竞争的“科技+路径”，尝试探索少部分市场互联网征信机构接入朴道征信系统，促进金融数据与政务数据共享，运用区块链等技术推动构建信用数据多方共建共治共享平台。

四是发布征信替代数据采集负面清单，将覆盖范围不广、采集行为涉及侵犯个人信息权益的数据类型剔除。对于允许采集的数据，还要对采集客体进行强信用性和可控性考量，综合判断确定替代数据可采集对象范围与标准化流程。

4（一）

推动市场发展，形成多方共治格局

我国具备金融科技加速发展、征信市场存量较大的现实基础，未来应推动建立具有中国特色“征信+科技”“政府+市场”“全国+地方”的多层次征信发展体系，形成多方共治格局。

一是要继续确立以中国人民银行为中心的征信管理体系。金融市场基础设施建设属中国人民银行职能，应将利用金融信贷信息的各类征信机构纳入牌照管理，并建立中国人民银行牵头、反垄断执法和个人信息保护等部门联合执法机制。

二是发挥地方征信行业协会自律协调监管功能。行业协会自律协调监管是中国人民银行征信管理的必要补充，切实推动行业协会向上反映行业诉求、向下提供各类服务，有效推动各类监管政策及配套制度落地。特别是在征信纠纷解决中，行业协会较为完善的纠纷处理、协调沟通功能在一定程度上解决政府和市场失灵的问题。

三是在完善征信对象侵权举报制度基础之上，加强对征信市场各方的宣传教育，拓宽社会群体的监督渠道，提升征信机构与信息主体的信息保护意识。

四是在政府监管、行业协会自律管理之外，推动信用服务机构、以大数据分析类为代表的金融科技公司、中小微企业、信用示范园区等机构的共建共享，着力着重各类主体的优势发挥与功能配合，形成较为良好的信用生态循环，进一步推动具有中国特色“征信+科技” “政府+市场”“全国+地方”的多层次征信发展体系建设，形成多方共治格局。

注：本文选自《征信》2021年第10期；本文作者：尚博文

上一篇：刘新海：从个人征信到个人数据产业 2021-11-05

下一篇：连维良：推广完善“信易贷”模式夯实信用信息“基础桩”作用 2021-11-05

欢迎来到【河北省信用网】