@77qingliu
2018-05-16T21:31:45.000000Z
字数 1670
阅读 1751
信用评分
信贷发放机构的分析人员能够获得大量的可以用于建立信用评分卡的变量。因此,选择模型中,也就是评分卡中使用的变量,不仅是一项分析任务,还与业务流程和评分卡的实施过程密切相关。
从分析的角度,模型中使用的变量迭代选择方法有许多种,这些方法的基本原理都是用模型和变量的统计量判断模型中包含和不包含每个变量时的模型质量。
所有变量选择算法的基本原理都是在模型中增加或者从模型中移出变量,知道发现最优模型。
proc logistic
提供了五种变量选择的方法,这些方法可以通过指定选项selection
的值在model
语句中调用。
selection = NONE
,这些拟合模型的最简单,也是默认的方法,它将model
语句中列出的所有变量都纳入模型。正向选择:selection = FORWARD
,这种方法通过几个步骤得到模型。
SLE
确定,SLE
的值指定允许一个变量进入模型的最大p值。正向选择的有点在于其只允许显著变量进入模型。然而,一旦某个变量在某个阶段被纳入模型,在接下来的某个阶段,即使其显著性降低也仍会保留在模型中。
selection = BACKWARD
,可以看作是正向选择的逆。先对所有自变量进行拟合,然后每一步中移除中Wald
卡方统计量的p值最大的量,如果其大于选项SLE
设定的值。 selection = STEPWISE
,每一步都是正向选择和逆向选择的结合。最初,模型只有截距项,然后在每一步中,用正向选择增加最优的变量,用逆向选择移除最差的变量。选择SLE和SLS的值来分别被用来控制纳入或移除模型的变量的p值。 selection = SCORE
,与逐步选择发有些相似,他们都是经过多个步骤反复增加或移除变量以改进模型。然而,它使用著名的分支定界算法以找出使得模型的分数统计量(SC)最高变量的子集。除了上述选择方法,proc logistic
还提供了下列选项,允许在上述方法中进一步对变量选择进行控制:
SEQUENTIAL
——强制算法按照model语句设定的顺序考虑变量,无论是将变量纳入还是移除模型。START=n
——强制模型从MODEL
语句列出的前n个变量开始STOP=n
——规定最终模型中包含的最大(对于正向选择)或最小(对于逆向选择)变量数INCLUDE=n
——强制将前n个变量包含在所有模型中。该选择与START
选择的区别在于,INCLUDE=N
强制将n个变量包含在所有模型中;而START=N
仅仅是从包含前n个变量的模型开始整个过程,某些变量可能在后续阶段被移除。由于不同变量选择方法控制选择的特殊功能,所以有些在特定的选择方法中无效。下表总结了MODEL
语句中使用的方法:
逐步选择发是评分卡模型开发中最常用的变量选择方法。与其他变量选择方法相比,它有两项明显的优势。
Wald
卡方显著性决定哪个变量将被保留在模型中,因此,最终模型中的所有变量都是显著的。通过将selection
的值设定为STEPWISE
,就可以在model
语句中调用逐步选择法。选项SLE=P
和SLS=P
分别设定了允许变量进入和保留在模型中的显著性水平。例如,设定SLE=0.05
,将允许Wald
卡方的p值等于或小于0.05
的变量进入模型。
信用评分卡开发的最优实践建议用于设定参数SLE和SLS的显著性水平的值如下: