@fanxy
2020-06-07 13:12
字数 8593
阅读 2753
樊潇彦
复旦大学经济学院
金融数据
给定解释变量 和被解释变量 ,传统计量经济学的方法是寻找参数 ,使样本估计值 “接近” 真实值 ,常用的准则是残差平方和(Residual Sum of Squares, RSS)最小。
在大数据环境下,样本量(也称为观测数) 和解释变量的个数(也称为特征数) 都很大。当 时称为高维数据,此时传统的计量经济学方法不再适用,需要有新的估计方法。
以下介绍借鉴了James et al.(2015)、Bajari et al.(2016)和Shi(2020)等。
支持向量机估计量定义如下(损失函数 ,调节参数 ,为单位向量):
James et al.(2015)指出:“一般情况下当一小部分预测变量是真实有效的,而其他预测变量系数非常小或者等于零时,LASSO要更为出色;当响应变量是很多预测变量的函数,并且这些变量系数大致相等时,岭回归较为出色。”
基于树的回归和分类方法是将预测变量空间划分为一系列简单区域,由于划分过程可以被概括为一棵树,因此也称为决策树(decision tree)方法。下面介绍最基本的回归树方法,以及袋装法、随机森林和提升法三种改进方法。
1. 回归树(regression tree)
根据Breiman et al.(1984),回归树是传统的非参估计中核估计方法的替代形式(an alternative to kernel regression)。给定数据 ,建立回归树的过程可以分为两步:(1)将预测变量空间分割成 个互不重叠的区域 ;(2)对落入区域 的每个观测值做同样的预测,预测值 等于上训练集的响应值的简单算术平均。估计量为:
2. 袋装法(bagging, or bootstrap averaging)
回归树方法最大的缺点是不稳定,回归结果对树的深度(depth of the tree)和分叉标准非常敏感。Breiman(1996)提出的袋装法(bagging, or bootstrap averaging)可以有效地解决这一问题,思想是先选取组自助样本(boostrap sample),然后对每组样本数据进行回归树估计,最后求估计结果的均值。袋装法的估计量为:
3. 随机森林(random forest)
Breiman(2001)提出的随机森林(random forest)方法也可以视为对回归树方法的一种改进,基本思想是每次在对树做分叉之前,先随机选出 个解释变量,对剩下的变量做树的分叉,调节参数是树的深度和 。
4. 提升树(tree boosting)
根据Shi(2020)的课件,提升树方法有三个调整参数:树深(the tree depth)、缩减参数(the shrinkage level,)和迭代次数 ,遵循以下步骤:
提升树方法可用gbm
包实现,ShiLin et al.(2020) 用该方法分析和预测了北京的房价,得到了比OLS估计更好的样本外,R程序可下载。
Martin et al.(2013) 第19章给出了神经网络和AR(1)回归的关系:
Shi(2020)指出,从统计学家的角度来看神经网络是一种特殊类型的非线性模型。 层神经网络模型可以写成:
其中:
神经网络的应用示例可参见Sanjiv Ranjan Das 在线教材。
假定对均值为零的时序向量 可以建立以下的VAR(1)模型:
SOM
程序,以及fastSOM
包计算SOI,但运行速度很慢。对均值为零的时序向量建立以下的VAR(p)模型(其中 ,为逆协方差矩阵):
其中 是调节参数, 是通过回归VAR(p)方程得到的有偏估计量。利用偏相关系数的定义 可计算 。
显然,当 很大时,LASSO估计会把 中很小的参数变为零,最终得到的关联网络 会变得非常稀疏,从而可以更好地展示节点之间的关键作用。Browness提供了nets
包以及示例程序。
Gu et al.(2020)调查了1957年至2016年交易的3万只个股,利用机器学习(ML)的几种技术研究了数百种可能的预测信号,结果发现在这项具有挑战性的任务中,ML比传统分析有显著优势。Chicago Booth Review总结了文章的几个主要发现:(1)决策树和神经网络是预测资产价格最有效的ML形式。使用决策树,计算机学会以扩张性流程图的方式进行思考,并进行多次迭代。神经网旨在模仿生物神经网络,这种技术在模拟非线性和互动模式方面特别有用。(2)在研究人员调查的近100个特征中,最成功的预测因素是价格趋势、流动性和波动性。(3)机器在预测大的、流动性强的股票的风险溢价方面比预测小的、流动性较差的股票要好。Matlab程序和数据可从Dacheng Xiu 的个人主页下载。
Das, S.R. 2017: Data Science: Theories, Models, Algorithms, and Analytics, Online textbook