@fanxy
2020-06-07T21:12:36.000000Z
字数 8593
阅读 2614
樊潇彦
复旦大学经济学院
金融数据
给定解释变量 和被解释变量 ,传统计量经济学的方法是寻找参数 ,使样本估计值 “接近” 真实值 ,常用的准则是残差平方和(Residual Sum of Squares, RSS)最小。
在大数据环境下,样本量(也称为观测数) 和解释变量的个数(也称为特征数) 都很大。当 时称为高维数据,此时传统的计量经济学方法不再适用,需要有新的估计方法。
以下介绍借鉴了James et al.(2015)、Bajari et al.(2016)和Shi(2020)等。
支持向量机估计量定义如下(损失函数 ,调节参数 ,为单位向量):
James et al.(2015)指出:“一般情况下当一小部分预测变量是真实有效的,而其他预测变量系数非常小或者等于零时,LASSO要更为出色;当响应变量是很多预测变量的函数,并且这些变量系数大致相等时,岭回归较为出色。”
基于树的回归和分类方法是将预测变量空间划分为一系列简单区域,由于划分过程可以被概括为一棵树,因此也称为决策树(decision tree)方法。下面介绍最基本的回归树方法,以及袋装法、随机森林和提升法三种改进方法。
1. 回归树(regression tree)
根据Breiman et al.(1984),回归树是传统的非参估计中核估计方法的替代形式(an alternative to kernel regression)。给定数据 ,建立回归树的过程可以分为两步:(1)将预测变量空间分割成 个互不重叠的区域 ;(2)对落入区域 的每个观测值做同样的预测,预测值 等于上训练集的响应值的简单算术平均。估计量为:
2. 袋装法(bagging, or bootstrap averaging)
回归树方法最大的缺点是不稳定,回归结果对树的深度(depth of the tree)和分叉标准非常敏感。Breiman(1996)提出的袋装法(bagging, or bootstrap averaging)可以有效地解决这一问题,思想是先选取组自助样本(boostrap sample),然后对每组样本数据进行回归树估计,最后求估计结果的均值。袋装法的估计量为:
3. 随机森林(random forest)
Breiman(2001)提出的随机森林(random forest)方法也可以视为对回归树方法的一种改进,基本思想是每次在对树做分叉之前,先随机选出 个解释变量,对剩下的变量做树的分叉,调节参数是树的深度和 。
4. 提升树(tree boosting)
根据Shi(2020)的课件,提升树方法有三个调整参数:树深(the tree depth)、缩减参数(the shrinkage level,)和迭代次数 ,遵循以下步骤:
提升树方法可用gbm
包实现,ShiLin et al.(2020) 用该方法分析和预测了北京的房价,得到了比OLS估计更好的样本外,R程序可下载。
Martin et al.(2013) 第19章给出了神经网络和AR(1)回归的关系:
Shi(2020)指出,从统计学家的角度来看神经网络是一种特殊类型的非线性模型。 层神经网络模型可以写成:
其中:
神经网络的应用示例可参见Sanjiv Ranjan Das 在线教材。
假定对均值为零的时序向量 可以建立以下的VAR(1)模型:
SOM
程序,以及fastSOM
包计算SOI,但运行速度很慢。对均值为零的时序向量建立以下的VAR(p)模型(其中 ,为逆协方差矩阵):
其中 是调节参数, 是通过回归VAR(p)方程得到的有偏估计量。利用偏相关系数的定义 可计算 。
显然,当 很大时,LASSO估计会把 中很小的参数变为零,最终得到的关联网络 会变得非常稀疏,从而可以更好地展示节点之间的关键作用。Browness提供了nets
包以及示例程序。
Gu et al.(2020)调查了1957年至2016年交易的3万只个股,利用机器学习(ML)的几种技术研究了数百种可能的预测信号,结果发现在这项具有挑战性的任务中,ML比传统分析有显著优势。Chicago Booth Review总结了文章的几个主要发现:(1)决策树和神经网络是预测资产价格最有效的ML形式。使用决策树,计算机学会以扩张性流程图的方式进行思考,并进行多次迭代。神经网旨在模仿生物神经网络,这种技术在模拟非线性和互动模式方面特别有用。(2)在研究人员调查的近100个特征中,最成功的预测因素是价格趋势、流动性和波动性。(3)机器在预测大的、流动性强的股票的风险溢价方面比预测小的、流动性较差的股票要好。Matlab程序和数据可从Dacheng Xiu 的个人主页下载。
Das, S.R. 2017: Data Science: Theories, Models, Algorithms, and Analytics, Online textbook