@evilking
2017-10-15T10:29:23.000000Z
字数 4150
阅读 2279
回归分析篇
在许多实际问题中,变量之间的关系并不都是线性的,通常我们会碰到某些现象的被解释变量与解释变量之间呈现某种曲线关系。对于曲线形式的回归问题,我们就不能照搬之前所说的多元线性回归的建模方法了
通常我们是对自变量或因变量进行函数变换,让变换后的变量能应用多元线性回归方法来建模
实际问题中,有许多回归模型的被解释变量 与解释变量 之间的关系都不是线性的,其中一些回归模型可以用函数变换来化为线性关系,而有些却不能。一般我们得想办法利用函数变换和变量替换来将原方程转换为线性方程表示.
比如:
上述方程都是可以转换为线性回归的那种情况,但是像方程
上述最后两个回归模型有相同的回归函数 ,只是误差项 的形式不一样,的误差项被称为乘性误差项,的误差项被称为加性误差项。因而一个非线性回归模型能否线性化,不仅与回归函数的形式有个,还与误差项的形式有关,当然,误差项的形式还可以有其他多种形式.
非线性回归模型一般可表示为
如果 ,那么就是前面我们讲的多元线性回归模型,而且必然有 ;对于一般情况的非线性模型,参数的数目与自变量的数目并没有一定的对应关系,不要求
对于非线性回归模型,我们任使用最小二乘法估计参数 ,即求使得
也可以直接极小化残差平方和 ,求出未知参数 的非线性最小二乘估计
在非线性回归中,平方和分解式 不再成立,类似于线性回归中的复决定系数,定义非线性回归的相关系数:
非线性回归模型比较多,这里介绍两个比较重要的非线性回归模型,即分段回归和逻辑回归;而对于像多项式回归等比较简单的我们这里就不作细致的讲解,一般都是用函数变换和变量替换就可以转换为线性回归模型了
在实际问题中,我们会碰到某些变量在不同的影响因素范围内变化趋势截然不同,例如经济问题涉及到经济政策有较大调整时,调整前与调整后的变化幅度会有很大不同。对于这种问题,我们有时用单一的一种曲线拟合效果任不能令人满意。
如果做残差分析,会发现残差不是随机的,而具有一定的系统性。对于这样一类问题,人们自然考虑到利用分段回归的方法来做处理.
例如,在观察样本散点图时如果发现,自变量在一段区域内符合一种模型,而在另一段区域时模型发生很大改变,又符合另一种模型,这个时候就可以利用分段回归了,在分段点的左右两边分别用不同的曲线去拟合;而这个问题的一个重点是如何找到分段点,因为有时候分段点的界限不是那么明显。
分段点确定的那种情况比较简单,我们这里就不进行说明,当分段点事先不知道时,我们只能通过样本数据本身来识别.
设样本满足分段回归方程
在后面的R程序演示中,笔者会用一个实例来介绍如何用改进逼近算法来寻找最佳的分段点.
设 是 型变量, 是与 相关的确定性变量,组观测数据为 ,其中,是取值或的随机变量,与的关系如下:
对于 Logistic回归