@77qingliu
2018-05-16T07:44:32.000000Z
字数 3283
阅读 1783
信用评分
Logisitc回归在信用评分卡开发中起到核心作用。由于其特点,以及对自变量进行了证据权重转换(WOE),Logitstic回归的结果可以直接转换为一个汇总表,即所谓的标准评分卡。
基本原理参见的我的另一篇笔记Logistic回归
通过一个简单的案例探讨其基本特征。SAS程序如下:
proc logistic data = CreditCard;
model status(event='1')=
CustAge TmAtAddress CustIncome TmWBank
;
run;
该模型的参数估计:
为了计算违约概率,首先计算Z:
然后用公式计算违约概率,即:
当数据是线性可分时,Logistic模型将面临两个基本问题:
好消息是,当proc logisitc
发现疑似线性可分时,会发出一个警示并在输出结果中打印一个建议信息,说明该解是可疑的。
Logistic回归模型的评估可以分几个阶段进行。
通过与仅包含截距项的模型进行比较,以评估将自变量引入模型的效应。
只包含截距项的似然函数值定义如下:
AIC和SC的定义都是通过增加一个条件来惩罚模型中的自变量数量。他们计算截距项或整个模型的似然值如下:
广义决定系数被定义为包含或不包含自变量的似然函数的值。如下所示:
为了输出和的值,需要在proc logisitc
的model
语句中使用rsquare
选项。值较高的模型被认为要优于值较低的模型。下列给出示例:
proc logistic data = CreditCard;
model status(event='1')=
CustAge TmAtAddress CustIncome TmWBank
/ rsquare;
run;
输出
Hosmer-Lemeshow检验的基本原理是将建模数据分成一定数量的段并比较每一段中实际和估计的违约数量。然后,通过计算得到一个类似卡方统计量的统计量,其显著性通过卡方分布进行评估。
该检验将建模数据分成g段,按照估计的违约概率的升序排列。
然后,计算每一段平均的估计概率,以及实际的违约数量。Hosmer-Lemeshow统计量定义为:
proc logisitc
将Hosmer-Lemeshow检验归类为拟合不足检验,在model
语句中的选项LACKFIT<>
被激活时,它将被计算并输出显示在程序结果中。如以下示例:
proc logistic data = CreditCard;
model status(event='1')=
CustAge TmAtAddress CustIncome TmWBank
/ LACKFIT(2);
run;
输出
显著性检验表明,模型严重拟合不足。
接下来,对模型质量进行的评估是对所有参数都实际为零,即的假设进行检验,该检验也被称为全局零假设。该假设的目的是检验当前的模型是否由于抽样结果偶然得到,而不是由真实的基础模型生成的数据得到。
用于检验零假设的统计量有三个:
这三个检验量都默认在logistic
回归模型中给出:
该列表表明,三个检验证明至少有一个模型参数不是0。
根据公式,logistic回归模型可以表示为:
迄今为止,所介绍的公式都是假设代表总体的建模样本正常和违约事件的百分比相同。然而,在多数情况下,违约事件的百分比很小,所以随机抽样产生的建模数据集中只包含少量的违约事件。这种情况下,就必须使用均衡抽样的方法。
但是,如果建立logistic回归模型所用的样本不能代表总体,而是有不同的违约百分比,这意味着违约和正常的已知或先验概率不同。proc logistic
提供了以下两种同样有效的解释先验概率的机制。
model
语句中使用pevent
选项设定模型因变量事件的先验概率的值。weight
语句识别它。