1.本公开涉及大数据智能分析技术领域,尤其涉及一种客户贷款收益率等级预测方法及系统。
背景技术:
2.银行的无额度客户可以向银行申请贷款业务,当银行审批通过后,会给予客户一个授信额度,客户可在预定时间段内(例如一年以内)在额度范围内随时支用贷款,其中,对于银行而言,客户支用额度越大,支用时间越长,产生的贷款收益越多。
3.但是,相关技术中,通常会存在客户申请贷款的审批通过后,客户支用贷款的支用期限短、支用金额少,或者不支用贷款,则会影响银行的贷款收益。因此,亟需一种客户贷款收益率等级预测方法,以便在客户申请贷款前预测出客户对贷款的大致使用情况(即客户能给银行带来的贷款收益的高低),以便后续可以基于预测结果对客户进行对应的贷款管理,提高银行的贷款收益。
技术实现要素:
4.本公开提供一种客户贷款收益率等级预测方法及系统,以提高银行的贷款收益。
5.本公开第一方面实施例提出一种客户贷款收益率等级预测方法,包括:
6.获取历史放款客户的客户数据;
7.基于所述历史放款客户的客户数据建立建模样本,并计算历史放款客户的客户贷款收益率等级,基于所述建模样本和所述历史放款客户的客户贷款收益率等级,利用机器学习算法进行拟合训练,以建立客户贷款收益率等级预测模型;
8.获取无额度客户的客户数据,并根据所述无额度客户的客户数据,利用所述客户贷款收益率等级预测模型预测所述无额度客户的客户贷款收益率等级。
9.本公开第二方面实施例提出一种客户贷款收益率等级预测系统,所述系统包括:
10.获取模块,用于获取历史放款客户的客户数据;
11.建立模块,用于基于所述历史放款客户的客户数据建立建模样本,并计算历史放款客户的客户贷款收益率等级,基于所述建模样本和所述历史放款客户的客户贷款收益率等级,利用机器学习算法进行拟合训练,以建立客户贷款收益率等级预测模型;
12.预测模块,用于获取无额度客户的客户数据,并根据所述无额度客户的客户数据,利用所述客户贷款收益率等级预测模型预测所述无额度客户的客户贷款收益率等级。
13.本公开第三方面实施例提出一种计算机存储介质,其中,所述计算机存储介质存储有计算机可执行指令;所述计算机可执行指令被处理器执行后,能够实现如上所述的方法。
14.本公开的实施例提供的技术方案至少带来以下有益效果:
15.综上所述,本公开实施例提供的客户贷款收益率等级预测方法及系统,会基于所述历史放款客户的客户数据建立建模样本,并计算出历史放款客户的客户贷款收益率等
级,之后会基于建模样本和历史放款客户的客户贷款收益率等级,利用机器学习算法进行拟合训练,以建立客户贷款收益率等级预测模型,利用该客户贷款收益率等级预测模型即可预测出无额度客户的客户贷款收益率等级,之后,银行即可将无额度客户的客户贷款收益率等级来作为客户后续贷款支用情况的参考依据,以对该客户进行对应的促销活动管理,达到维持高贷款收益率的客户群体,提高低贷款收益率客户群体的贷款使用率的目的,有利于后续定向的执行营销策略来实现更高效的精细化运营,确保了银行的贷款收益。
16.本公开附加的方面以及优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本公开的实践了解到。
附图说明
17.本公开上述的和/或附加的方面以及优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
18.图1a为根据本公开一个实施例提供的客户贷款收益率等级预测方法的流程示意图;
19.图1b为本公开实施例提供的一种客户申请贷款业务的流程示意图;
20.图2为根据本公开一个实施例提供的客户贷款收益率等级预测系统的结构示意图。
具体实施方式
21.下面详细描述本公开的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本公开,而不能理解为对本公开的限制。
22.下面参考附图描述本公开实施例的客户贷款收益率等级预测方法及系统。
23.第一个实施例
24.图1a为根据本公开一个实施例提供的一种客户贷款收益率等级预测方法的流程示意图,如图1a所示,该方法可以包括:
25.步骤101、获取历史放款客户的客户数据。
26.其中,可以将历史放款且到期后未逾期或逾期在预设时间(例如30天)内的客户确定为历史放款客户。
27.以及,客户数据可以包括历史放款客户的各维度数据,如行内数据、接入第三方信用数据、和各场景数据等。其中,针对小微企业型的历史放款客户而言,其客户数据可以为:小微企业的基本信息、工商信息、税务数据、代发工资信息、负债数据、对公流水、企业征信等;针对个人型客户的历史放款客户而言,其客户数据主要为:个人征信、aum(客户贡献度)数据、借记卡数据、贷记卡数据、负债数据等。
28.之后,可以将客户数据借助特征工程生成对应的客户特征以便后续基于客户特征来建立建模样本。
29.步骤102、基于历史放款客户的客户数据建立建模样本,并计算历史放款客户的客户贷款收益率等级,基于建模样本和历史放款客户的客户贷款收益率等级,利用机器学习算法进行拟合训练,以建立客户贷款收益率等级预测模型。
30.其中,基于历史放款客户的客户数据建立建模样本的方法具体可以包括以下步骤:
31.步骤a、对历史放款客户的客户数据进行关联、整合及清洗处理,得到有效数据集。
32.该有效数据集至少包括:企业主的数据信息和企业的数据信息。其中,企业主的数据信息包括:企业主的基础信息、信用卡信息、贷款信息及资产信息;企业主的数据信息包括:企业的基础信息、交易信息、及负债信息。
33.以及,表1为本公开实施例提供的一种有效数据集的示意表。
34.表1
[0035][0036]
如表1所示,企业主的基础信息可以包括客户个人信息(例如姓名、年龄、学历等信息)和企业主的行内基础信息(例如企业主的开户行、开户行账号等);企业主的信用卡信息可以包括企业主的信用卡账户信息、信用卡使用情况、信用卡还款情况、信用卡逾期情况。
[0037]
步骤b、根据有效数据集,通过特征衍生得到适用于客户贷款收益率等级预测模型
的衍生特征。
[0038]
具体的,可以通过对有效数据集进行透传处理、统计聚合处理及特征交叉处理以进行特征衍生,形成所述衍生特征。
[0039]
其中,上述的透传处理可以包括:对于有效数据集中属于数值型变量的数据且数据仅对应一个数据值(例如年龄、学历等数据),直接进行透传作为衍生特征;对于有效数据集中属于分类型变量的数据(例如学生专业、公司类型、职业等数据)进行类型合并后透传为衍生特征。
[0040]
上述的统计聚合处理可以包括:对于有效数据集中的流水数据或明细类型的数据,划分不同的时间窗口并计算每个窗口内的统计变量,以衍生出新的特征;例如对于贷款明细、交易流水、代发工资记录等这类的流水数据,每个客户都可能有多条不同时间发生的流水记录,则可以将流水数据按照时间划分出不同的时间窗口,并计算各个时间窗口内的统计变量(例如对于各个时间窗口内的流水数据计算求和、均值、分位数、最小值、最大值、标准差)。以及,对于有效数据集中属于分类型变量的数据,计算分类型变量的数据对应类型的出现次数及种类,以衍生出新的特征。
[0041]
上述的特征交叉处理包括:将有效数据集中的不同类型的数据进行多维交叉以衍生出新的特征。具体的,可以通过将分类型变量和数值型变量的数据进行组合,并分不同类别的数值变量进行统计聚合,以衍生出新的特征。例如,通过结合贷款类型和贷款余额可以衍生出车贷余额、房贷余额、消费贷余额等衍生特征。
[0042]
由此可知,通过上述的特征衍生处理则可以进一步丰富有效数据集中的数据,则后续基于这些数据建立客户贷款收益率等级预测模型时,可以确保所建立的客户贷款收益率等级预测模型的准确度。
[0043]
步骤c、对衍生特征进行特征筛选。
[0044]
具体的,通过对衍生特征进行预设筛选处理、相关性筛选处理、缺失值筛选处理、单值率筛选处理及取值过多情况筛选处理,以得到筛选后的特征。
[0045]
其中,上述的预设筛选处理可以包括:利用iv(information value,信息值)分析各个衍生特征对于客户贷款收益率等级的预测能力,剔除预测能力低于第一阈值的特征,其中,该预测能力用于表示衍生特征对于客户贷款收益率等级的影响程度,衍生特征的iv越高,预测能力越强,则该衍生特征对于客户贷款收益率等级的影响程度越高。以及,该第一阈值可以是预先设置,例如可以为0.05。
[0046]
通过该预设筛选处理则可以确保所筛选出的衍生特征均是对客户贷款收益率等级的影响程度较高的特征,从而可以进一步确保后续建立的客户贷款收益率等级预测模型的准确度。
[0047]
上述的相关性筛选可以包括:计算各个衍生特征之间相关性,将相关性大于第二阈值的两个衍生特征中与客户贷款收益率等级的相关性较高的衍生特征保留。其中,该第二阈值可以为0.9。
[0048]
其中,当两个衍生特征的相关性大于第二阈值时,则说明该两个衍生特征重复度较高,则为了确保数据的精简度,可以删除其中一个衍生特征。以及,本公开中通过保留相关性大于第二阈值的两个衍生特征中与客户贷款收益率等级的相关性较高的衍生特征、而剔除与客户贷款收益率等级的相关性较低的衍生特征,则可以确保剔除了衍生特征后不会
对后续建立的客户贷款收益率等级模型的准确度造成影响。
[0049]
示例的,假设“行内近5月纳税月份数”和“行内近3月纳税月份数”两个衍生变量的相关系数为0.97,且“行内近5月纳税月份数”和“行内近3月纳税月份数”与客户贷款收益率等级的相关系数分别为0.226和0.221,则保留“行内近5月纳税月份数”,剔除“行内近3月纳税月份数”。
[0050]
上述缺失值筛选处理包括:计算各个衍生特征的数据缺失率,剔除数据缺失率大于第三阈值的衍生特征。其中,该第三阈值可以为80%。示例的,假设“企业代发工资人数”这一衍生变量的缺失值为90%,则可将“企业代发工资人数”予以剔除。
[0051]
上述单值率筛选处理包括:计算离散型衍生特征的取值情况,剔除取值唯一的离散型衍生特征。例如“企业主国籍地区代码”这一衍生特征的取值唯一:为中国,对建模无用,则将“企业主国籍地区代码”予以剔除。
[0052]
上述取值过多情况筛选处理包括:计算离散型衍生变量特征的取值情况,剔除取值个数超过第四阈值的离散型衍生特征。其中,第四阈值可以为50。示例的,“行业细类”这一衍生变量的取值非常多,对于建模并无太大作用,则可将“行业细类”予以剔除,而仅使用“行业大类”即可。
[0053]
由此可知,通过上述的特征筛选处理可以在不影响后续客户贷款收益率等级预测模型的建模准确度的基础上,剔除衍生特征中的无用重复的数据,使得衍生特征更加精简,则提高了后续的基于衍生特征建立客户贷款收益率等级预测模型的处理效率。
[0054]
步骤d、对筛选后的特征进行预处理,将预处理后的特征作为建模样本。
[0055]
具体的,可以对筛选后的特征进行异常值处理及缺失值填充处理,以得到预处理后的特征。
[0056]
其中,上述的异常值处理可以包括:将超出业务规定范围的衍生特征的取值确定为异常值,并对所述异常值进行修改。例如业务规定企业主的年龄应当满18周岁,而若“企业主的年龄”这一特征对应的取值小于18岁,则可将“企业主的年龄”的取值确定为异常值,并对该异常值修改为业务规定范围取值。
[0057]
上述的缺失值填充处理可以包括:对属于离散型变量的衍生特征的取值的缺失值利用默认字符串进行填充,对属于连续型变量的衍生特征的取值的缺失值用特定字符串(-99999)进行填充。
[0058]
则通过上述步骤a-步骤d,即可基于历史放款客户的客户数据建立好建模样本,以便后续可以基于该建模样本来进行客户贷款收益率等级预测模型的建立。
[0059]
进一步地,上述的计算历史放款客户的客户贷款收益率等级的方法可以包括:
[0060]
步骤1、计算所述历史放款客户的客户潜在收益率。
[0061]
其中,客户潜在收益率=(客户利息+罚息)/(授信额度
×
贷款期限
×
利率);
[0062]
步骤2、基于所述客户潜在收益率确定客户贷款收益率等级;
[0063]
其中,当客户潜在收益率≤第一预设值,确定客户贷款收益率等级为高;
[0064]
当第一阈值<客户潜在收益率≤第二预设值,确定客户贷款收益率等级为中;
[0065]
当客户潜在收益率>第二预设值,确定客户贷款收益率等级为低。
[0066]
该第一预设值和第二预设值可以是预先设置的,例如第一预设值可以为0.3,第二预设值可以为0.8。
[0067]
进一步地,在建立好建模样本以及计算出计算历史放款客户的客户贷款收益率等级之后,可以基于所述建模样本和所述历史放款客户的客户贷款收益率等级,利用机器学习算法进行拟合训练,以建立客户贷款收益率等级预测模型。其中,在本公开实施例中,该机器学习算法具体可以为lightgbm算法。
[0068]
其中,ligthgbm算法是机器学习的一种集合算法,是对gbdt算法的高效实现,gbdt算法的主要思想是利用弱分类器(决策树)迭代训练以得到最优模型,而ligthgbm算法采用损失函数的负梯度作为当前决策树的残差近似值,去拟合新的决策树,该模型具有训练效果好、不易过拟合、速度快等优点。
[0069]
此外,在本公开实施例之中,在建立客户贷款收益率等级预测模型的过程中,还可以针对该客户贷款收益率等级预测模型建立开发集和验证集。其中,该开发集例如可以为申请日在2018-09-01至2018-11-30所有签约客户的客户数据,该验证集例如可以为申请日在2018-12-01至2018-12-31所有签约客户的客户数据。
[0070]
由此可知,本公开实施例中是利用大数据和机器学习算法来构建客户贷款收益率等级预测模型,则使得所构建出的客户贷款收益率等级预测模型具有更高的准确率、更快的训练效率、以及可以处理大规模数据等特点,从而后续基于客户贷款收益率等级预测模型进行客户贷款收益率等级预测时,可以实现了客户贷款收益率等级预测的准确性、一致性、客观性和时效性。
[0071]
步骤103、获取无额度客户的客户数据,并根据无额度客户的客户数据,利用客户贷款收益率等级预测模型预测无额度客户的客户贷款收益率等级。
[0072]
其中,无额度客户可以是向银行申请贷款业务的客户。以及,图1b为本公开实施例提供的一种客户申请贷款业务的流程示意图,如图1b所示,该流程主要为:
[0073]
1.客户申请:客户提出贷款申请并授权银行查询相关信息,
[0074]
2.准入规则:银行根据贷款政策和风险规则判定客户资质;如果客户通过准入规则继续下一步3,如果不符合规则要求则该笔贷款将被否决。
[0075]
3.额度判断:对于通过风险准入规则的客户,银行需要计算可以给与客户的信贷额度,额度》0时,对客户展示可贷金额,并提示进行下一步操作。
[0076]
4.提交审批:客户根据需求输入申请金额、期限等信息,提交系统审批。
[0077]
5.签约开户:审批通过后,客户可客户并随时支用贷款。
[0078]
以及,本公开的客户贷款收益率等级预测方法作为贷款申请流程中的一环,在客户提交审批后,用于判断客户的潜在收益。如果客户潜在收益高,说明客户完整支用贷款的可能性更大。如果客户潜在收益小,说明客户可能信贷需求较小或者对贷款产品价格不满意等,则可以尝试差异化定价提高客户贷款支用意愿。
[0079]
需要说明的是,客户贷款收益率等级为中低等级的客群可以理解为客户贷款支用意愿不强烈,针对这部分客群可以进行利率价格调整提高客户贷款支用率,实现普惠金融。
[0080]
综上所述,本公开实施例提供的客户贷款收益率等级预测方法之中,会基于所述历史放款客户的客户数据建立建模样本,并计算出历史放款客户的客户贷款收益率等级,之后会基于建模样本和历史放款客户的客户贷款收益率等级,利用机器学习算法进行拟合训练,以建立客户贷款收益率等级预测模型,利用该客户贷款收益率等级预测模型即可预测出无额度客户的客户贷款收益率等级,之后,银行即可将无额度客户的客户贷款收益率
等级来作为客户后续贷款支用情况的参考依据,以对该客户进行对应的促销活动管理,达到维持高贷款收益率的客户群体,提高低贷款收益率客户群体的贷款使用率的目的,有利于后续定向的执行营销策略来实现更高效的精细化运营,确保了银行的贷款收益。
[0081]
并且本公开实施例中,用于建立客户贷款收益率等级预测模型的建模样本包含有客户的各维度数据信息,来源丰富,且在建立客户贷款收益率等级预测模型的过程中充分灵活的使用了客户的数据信息,则使得所建立的客户贷款收益率等级预测模型的预测准确度较高。
[0082]
此外,本公开实施例中,是利用大数据和机器学习算法来构建客户贷款收益率等级预测模型,则使得所构建出的客户贷款收益率等级预测模型具有更高的准确率、更快的训练效率、以及可以处理大规模数据等特点,从而后续基于客户贷款收益率等级预测模型进行客户贷款收益率等级预测时,可以实现了客户贷款收益率等级预测的准确性、一致性、客观性和时效性。
[0083]
第二个实施例
[0084]
图2为根据本公开一个实施例提供的一种客户贷款收益率等级预测系统200的结构示意图,如图2所示,该系统可以包括:
[0085]
获取模块201,用于获取历史放款客户的客户数据;
[0086]
建立模块202,用于基于所述历史放款客户的客户数据建立建模样本,并计算历史放款客户的客户贷款收益率等级,基于所述建模样本和所述历史放款客户的客户贷款收益率等级,利用机器学习算法进行拟合训练,以建立客户贷款收益率等级预测模型;
[0087]
预测模块203,用于获取无额度客户的客户数据,并根据所述无额度客户的客户数据,利用所述客户贷款收益率等级预测模型预测所述无额度客户的客户贷款收益率等级。
[0088]
综上所述,本公开实施例提供的客户贷款收益率等级预测系统之中,会基于所述历史放款客户的客户数据建立建模样本,并计算出历史放款客户的客户贷款收益率等级,之后会基于建模样本和历史放款客户的客户贷款收益率等级,利用机器学习算法进行拟合训练,以建立客户贷款收益率等级预测模型,利用该客户贷款收益率等级预测模型即可预测出无额度客户的客户贷款收益率等级,之后,银行即可将无额度客户的客户贷款收益率等级来作为客户后续贷款支用情况的参考依据,以对该客户进行对应的促销活动管理,达到维持高贷款收益率的客户群体,提高低贷款收益率客户群体的贷款使用率的目的,有利于后续定向的执行营销策略来实现更高效的精细化运营,确保了银行的贷款收益。
[0089]
并且本公开实施例中,用于建立客户贷款收益率等级预测模型的建模样本包含有客户的各维度数据信息,来源丰富,且在建立客户贷款收益率等级预测模型的过程中充分灵活的使用了客户的数据信息,则使得所建立的客户贷款收益率等级预测模型的预测准确度较高。
[0090]
此外,本公开实施例中,是利用大数据和机器学习算法来构建客户贷款收益率等级预测模型,则使得所构建出的客户贷款收益率等级预测模型具有更高的准确率、更快的训练效率、以及可以处理大规模数据等特点,从而后续基于客户贷款收益率等级预测模型进行客户贷款收益率等级预测时,可以实现了客户贷款收益率等级预测的准确性、一致性、客观性和时效性。
[0091]
可选的,所述获取模块,还用于:
[0092]
获取历史放款且到期后未逾期或逾期在预设时间内的客户数据。
[0093]
可选的,所述建立模块,还用于:
[0094]
对所述历史放款客户的客户数据进行关联、整合及清洗处理,得到有效数据集;
[0095]
根据所述有效数据集,通过特征衍生得到适用于客户贷款收益率等级预测模型的衍生特征;
[0096]
对衍生特征进行特征筛选;
[0097]
对筛选后的特征进行预处理,将预处理后的特征作为建模样本。
[0098]
可选的,所述有效数据集至少包括:企业主的数据信息和企业的数据信息;
[0099]
其中,企业主的数据信息包括:企业主的基础信息、信用卡信息、贷款信息及资产信息;企业主的数据信息包括:企业的基础信息、交易信息、及负债信息。
[0100]
可选的,所述建立模块,还用于:
[0101]
对所述有效数据集进行透传处理、统计聚合处理及特征交叉处理以进行特征衍生,形成所述衍生特征。
[0102]
可选的,所述透传处理包括:对于有效数据集中属于数值型变量的数据且所述数据仅对应一个数据值,直接进行透传作为衍生特征;对于有效数据集中属于分类型变量的数据进行类型合并后透传为衍生特征;
[0103]
所述统计聚合处理包括:对于有效数据集中的流水数据或明细类型的数据,划分不同的时间窗口并计算每个窗口内的统计变量,以衍生出新的特征;对于有效数据集中属于分类型变量的数据,计算所述分类型变量的数据对应类型的出现次数及种类,以衍生出新的特征;
[0104]
所述特征交叉处理包括:将所述有效数据集中的不同类型的数据进行多维交叉以衍生出新的特征。
[0105]
可选的,所述建立模块,还用于:
[0106]
对衍生特征进行预设筛选处理、相关性筛选处理、缺失值筛选处理、单值率筛选处理及取值过多情况筛选处理,得到筛选后的特征。
[0107]
可选的,所述预设筛选处理包括:利用信息值iv分析各个衍生特征对于客户贷款收益率等级的预测能力,剔除预测能力低于第一阈值的特征,其中,所述预测能力用于表示所述衍生特征对于客户贷款收益率等级的影响程度;
[0108]
所述相关性筛选包括:计算各个衍生特征与客户贷款收益率等级的相关性,保留相关性大于第二阈值的衍生特征;
[0109]
所述缺失值筛选处理包括:计算各个衍生特征的数据缺失率,剔除数据缺失率大于第三阈值的衍生特征;
[0110]
所述单值率筛选处理包括:计算离散型衍生特征的取值情况,剔除取值唯一的离散型衍生特征;
[0111]
所述取值过多情况筛选处理包括:计算离散型衍生变量特征的取值情况,剔除取值个数超过第四阈值的离散型衍生特征。
[0112]
可选的,所述建立模块,还用于:
[0113]
对筛选后的特征进行异常值处理及缺失值填充处理,得到预处理后的特征。
[0114]
可选的,所述异常值处理包括:将超出业务规定范围的衍生特征的取值确定为异
常值,并对所述异常值进行修改;
[0115]
所述缺失值填充处理包括:对属于离散型变量的衍生特征的取值的缺失值利用默认字符串进行填充。
[0116]
可选的,所述建立模块,还用于:
[0117]
计算所述历史放款客户的客户潜在收益率;客户潜在收益率=(客户利息+罚息)/(授信额度
×
贷款期限
×
利率);
[0118]
基于所述客户潜在收益率确定客户贷款收益率等级;
[0119]
其中,当客户潜在收益率≤第一预设值,确定客户贷款收益率等级为高;
[0120]
当第一阈值<客户潜在收益率≤第二预设值,确定客户贷款收益率等级为中;
[0121]
当客户潜在收益率>第二预设值,确定客户贷款收益率等级为低。
[0122]
可选的,所述建立模块,还用于:
[0123]
基于所述建模样本和所述历史放款客户的客户贷款收益率等级,利用lightgbm算法进行拟合训练,以建立客户贷款收益率等级预测模型。
[0124]
为了实现上述实施例,本公开还提出一种计算机存储介质。
[0125]
本公开实施例提供的计算机存储介质,存储有可执行程序;所述可执行程序被处理器执行后,能够实现如图1a所示的方法。
[0126]
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本公开的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
[0127]
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本公开的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本公开的实施例所属技术领域的技术人员所理解。
[0128]
尽管上面已经示出和描述了本公开的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本公开的限制,本领域的普通技术人员在本公开的范围内可以对上述实施例进行变化、修改、替换和变型。
技术特征:
1.一种客户贷款收益率等级预测方法,其特征在于,所述方法包括:获取历史放款客户的客户数据;基于所述历史放款客户的客户数据建立建模样本,并计算历史放款客户的客户贷款收益率等级,基于所述建模样本和所述历史放款客户的客户贷款收益率等级,利用机器学习算法进行拟合训练,以建立客户贷款收益率等级预测模型;获取无额度客户的客户数据,并根据所述无额度客户的客户数据,利用所述客户贷款收益率等级预测模型预测所述无额度客户的客户贷款收益率等级。2.根据权利要求1所述的客户贷款收益率等级预测方法,其特征在于,所述获取历史放款客户的客户数据,包括:获取历史放款且到期后未逾期或逾期在预设时间内的客户数据。3.根据权利要求1所述的客户贷款收益率等级预测方法,所述基于所述历史放款客户的客户数据建立建模样本,包括:对所述历史放款客户的客户数据进行关联、整合及清洗处理,得到有效数据集;根据所述有效数据集,通过特征衍生得到适用于客户贷款收益率等级预测模型的衍生特征;对衍生特征进行特征筛选;对筛选后的特征进行预处理,将预处理后的特征作为建模样本。4.根据权利要求3所述的客户贷款收益率等级预测方法,其特征在于,所述有效数据集至少包括:企业主的数据信息和企业的数据信息;其中,企业主的数据信息包括:企业主的基础信息、信用卡信息、贷款信息及资产信息;企业主的数据信息包括:企业的基础信息、交易信息、及负债信息。5.根据权利要求3所述的客户贷款收益率等级预测方法,其特征在于,所述根据所述有效数据集,通过特征衍生得到适用于客户贷款收益率等级预测模型的衍生特征,包括:对所述有效数据集进行透传处理、统计聚合处理及特征交叉处理以进行特征衍生,形成所述衍生特征。6.根据权利要求5所述的客户贷款收益率等级预测方法,其特征在于,所述透传处理包括:对于有效数据集中属于数值型变量的数据且所述数据仅对应一个数据值,直接进行透传作为衍生特征;对于有效数据集中属于分类型变量的数据进行类型合并后透传为衍生特征;所述统计聚合处理包括:对于有效数据集中的流水数据或明细类型的数据,划分不同的时间窗口并计算每个窗口内的统计变量,以衍生出新的特征;对于有效数据集中属于分类型变量的数据,计算所述分类型变量的数据对应类型的出现次数及种类,以衍生出新的特征;所述特征交叉处理包括:将所述有效数据集中的不同类型的数据进行多维交叉以衍生出新的特征。7.根据权利要求3所述的客户贷款收益率等级预测方法,其特征在于,所述对衍生特征进行特征筛选,包括:对衍生特征进行预设筛选处理、相关性筛选处理、缺失值筛选处理、单值率筛选处理及取值过多情况筛选处理,得到筛选后的特征。
8.根据权利要求7所述的客户贷款收益率等级预测方法,其特征在于,所述预设筛选处理包括:利用信息值iv分析各个衍生特征对于客户贷款收益率等级的预测能力,剔除预测能力低于第一阈值的特征,其中,所述预测能力用于表示所述衍生特征对于客户贷款收益率等级的影响程度;所述相关性筛选包括:计算各个衍生特征之间相关性,将相关性大于第二阈值的两个衍生特征中与客户贷款收益率等级的相关性较高的衍生特征保留;所述缺失值筛选处理包括:计算各个衍生特征的数据缺失率,剔除数据缺失率大于第三阈值的衍生特征;所述单值率筛选处理包括:计算离散型衍生特征的取值情况,剔除取值唯一的离散型衍生特征;所述取值过多情况筛选处理包括:计算离散型衍生变量特征的取值情况,剔除取值个数超过第四阈值的离散型衍生特征。9.根据权利要求3所述的客户贷款收益率等级预测方法,其特征在于,对筛选后的特征进行预处理,包括:对筛选后的特征进行异常值处理及缺失值填充处理,得到预处理后的特征。10.根据权利要求9所述的客户贷款收益率等级预测方法,其特征在于,所述异常值处理包括:将超出业务规定范围的衍生特征的取值确定为异常值,并对所述异常值进行修改;所述缺失值填充处理包括:对属于离散型变量的衍生特征的取值的缺失值利用默认字符串进行填充,对属于连续型变量的衍生特征的取值的缺失值用特定字符串进行填充。11.根据权利要求1所述的客户贷款收益率等级预测方法,其特征在于,所述计算历史放款客户的客户贷款收益率等级,包括:计算所述历史放款客户的客户潜在收益率;客户潜在收益率=(客户利息+罚息)/(授信额度
×
贷款期限
×
利率);基于所述客户潜在收益率确定客户贷款收益率等级;其中,当客户潜在收益率≤第一预设值,确定客户贷款收益率等级为高;当第一阈值<客户潜在收益率≤第二预设值,确定客户贷款收益率等级为中;当客户潜在收益率>第二预设值,确定客户贷款收益率等级为低。12.根据权利要求1所述的客户贷款收益率等级预测方法,其特征在于,所述基于所述建模样本和所述历史放款客户的客户贷款收益率等级,利用机器学习算法进行拟合训练,以建立客户贷款收益率等级预测模型,包括:基于所述建模样本和所述历史放款客户的客户贷款收益率等级,利用lightgbm算法进行拟合训练,以建立客户贷款收益率等级预测模型。13.一种客户贷款收益率等级预测系统,其特征在于,所述系统包括:获取模块,用于获取历史放款客户的客户数据;建立模块,用于基于所述历史放款客户的客户数据建立建模样本,并计算历史放款客户的客户贷款收益率等级,基于所述建模样本和所述历史放款客户的客户贷款收益率等级,利用机器学习算法进行拟合训练,以建立客户贷款收益率等级预测模型;预测模块,用于获取无额度客户的客户数据,并根据所述无额度客户的客户数据,利用
所述客户贷款收益率等级预测模型预测所述无额度客户的客户贷款收益率等级。14.根据权利要求13所述的客户贷款收益率等级预测系统,其特征在于,所述获取模块,还用于:获取历史放款且到期后未逾期或逾期在预设时间内的客户数据。15.据权利要求13所述的客户贷款收益率等级预测系统,所述建立模块,还用于:对所述历史放款客户的客户数据进行关联、整合及清洗处理,得到有效数据集;根据所述有效数据集,通过特征衍生得到适用于客户贷款收益率等级预测模型的衍生特征;对衍生特征进行特征筛选;对筛选后的特征进行预处理,将预处理后的特征作为建模样本。16.根据权利要求15所述的客户贷款收益率等级预测系统,其特征在于,所述有效数据集至少包括:企业主的数据信息和企业的数据信息;其中,企业主的数据信息包括:企业主的基础信息、信用卡信息、贷款信息及资产信息;企业主的数据信息包括:企业的基础信息、交易信息、及负债信息。17.根据权利要求15所述的客户贷款收益率等级预测系统,其特征在于,所述建立模块,还用于:对所述有效数据集进行透传处理、统计聚合处理及特征交叉处理以进行特征衍生,形成所述衍生特征。18.根据权利要求17所述的客户贷款收益率等级预测系统,其特征在于,所述透传处理包括:对于有效数据集中属于数值型变量的数据且所述数据仅对应一个数据值,直接进行透传作为衍生特征;对于有效数据集中属于分类型变量的数据进行类型合并后透传为衍生特征;所述统计聚合处理包括:对于有效数据集中的流水数据或明细类型的数据,划分不同的时间窗口并计算每个窗口内的统计变量,以衍生出新的特征;对于有效数据集中属于分类型变量的数据,计算所述分类型变量的数据对应类型的出现次数及种类,以衍生出新的特征;所述特征交叉处理包括:将所述有效数据集中的不同类型的数据进行多维交叉以衍生出新的特征。19.根据权利要求15所述的客户贷款收益率等级预测系统,其特征在于,所述建立模块,还用于:对衍生特征进行预设筛选处理、相关性筛选处理、缺失值筛选处理、单值率筛选处理及取值过多情况筛选处理,得到筛选后的特征。20.根据权利要求19所述的客户贷款收益率等级预测系统,其特征在于,所述预设筛选处理包括:利用信息值iv分析各个衍生特征对于客户贷款收益率等级的预测能力,剔除预测能力低于第一阈值的特征,其中,所述预测能力用于表示所述衍生特征对于客户贷款收益率等级的影响程度;所述相关性筛选包括:计算各个衍生特征与客户贷款收益率等级的相关性,保留相关性大于第二阈值的衍生特征;所述缺失值筛选处理包括:计算各个衍生特征的数据缺失率,剔除数据缺失率大于第
三阈值的衍生特征;所述单值率筛选处理包括:计算离散型衍生特征的取值情况,剔除取值唯一的离散型衍生特征;所述取值过多情况筛选处理包括:计算离散型衍生变量特征的取值情况,剔除取值个数超过第四阈值的离散型衍生特征。21.根据权利要求15所述的客户贷款收益率等级预测系统,其特征在于,所述建立模块,还用于:对筛选后的特征进行异常值处理及缺失值填充处理,得到预处理后的特征。22.根据权利要求21所述的客户贷款收益率等级预测系统,其特征在于,所述异常值处理包括:将超出业务规定范围的衍生特征的取值确定为异常值,并对所述异常值进行修改;所述缺失值填充处理包括:对属于离散型变量的衍生特征的取值的缺失值利用默认字符串进行填充。23.根据权利要求13所述的客户贷款收益率等级预测系统,其特征在于,所述建立模块,还用于:计算所述历史放款客户的客户潜在收益率;客户潜在收益率=(客户利息+罚息)/(授信额度
×
贷款期限
×
利率);基于所述客户潜在收益率确定客户贷款收益率等级;其中,当客户潜在收益率≤第一预设值,确定客户贷款收益率等级为高;当第一阈值<客户潜在收益率≤第二预设值,确定客户贷款收益率等级为中;当客户潜在收益率>第二预设值,确定客户贷款收益率等级为低。24.根据权利要求13所述的客户贷款收益率等级预测系统,其特征在于,所述建立模块,还用于:基于所述建模样本和所述历史放款客户的客户贷款收益率等级,利用lightgbm算法进行拟合训练,以建立客户贷款收益率等级预测模型。25.一种计算机存储介质,其中,所述计算机存储介质存储有计算机可执行指令;所述计算机可执行指令被处理器执行后,能够实现如权利要求1-12任一所述的方法。
技术总结
本公开提出一种客户贷款收益率等级预测方法及系统,方法包括:获取历史放款客户的客户数据;基于所述历史放款客户的客户数据建立建模样本,并计算历史放款客户的客户贷款收益率等级,基于所述建模样本和所述历史放款客户的客户贷款收益率等级,利用机器学习算法进行拟合训练,以建立客户贷款收益率等级预测模型;获取无额度客户的客户数据,并根据所述无额度客户的客户数据,利用所述客户贷款收益率等级预测模型预测所述无额度客户的客户贷款收益率等级。本公开的方法可以预测客户贷款收益率等级且预测准确度较高,同时确保了银行的贷款收益。贷款收益。贷款收益。
技术研发人员:雷文烨
受保护的技术使用者:中国建设银行股份有限公司
技术研发日:2021.11.10
技术公布日:2022/3/8