对 泛化 的思考
机器学习
思想
高维相关性数据
- 对于观测数据来说可以得到很多很多的解,这些解都能完美拟合观测数据
- 但这些解不都是最优的,最优应该是解反映出的一些性质,而不是该解可以拟合观测数据
- 其中只有一部分解是有很好的泛化能力的,也就是说只有一部分解能够合理的描述该问题,但是不是所有有能够完美拟合观测数据解的好泛化能力的解?
- 也就是该模型所有的可能的解里面,是否存在一个合理的解,能够对模型进行解释。如果该模型所有可能的解本身就不存在这种合理的解,那么该模型本身就不适用
- 如果模型的所有可能解中包含合理解,如何定位到该合理解,如何知道该合理解是合理解(验证集?测试集?低维问题的可视化?)
- 对于random label和random pixel实验能够否定,“存在可能解,一定存在合理解”这个命题
- 如果一个模型的可能解中存在合理解,如何调整学习方法(优化方法等),使学习得到的解更趋向于合理解,,,(更强更合理的约束??)
- 如果优化方法能够解决这个问题,优化方法应该具备怎样的特性
- 学习过程对于学习到的函数存在某种性质?
- 如果学习过程可以更加趋向合理解,那么学习过程应该怎样?
- 按照这个思路,一些可以改进泛化性能的方式:网络结构优化、正则化、数据增强、dropout、调整样本权重等方法,,均可以使学习到的解更趋向于合理解,为什么??,这些方法与优化方法(SGD)结合可以学习到更合理的解或者更趋向合理的解,那么本质是什么,,是什么原因的导致更趋向于合理解?
- 与学习过程中学习到的函数的演化过程有关?????(个人认为)
- 网络结构改进引起的泛化能力提高的原因在哪,为什么这种改进的结构可以使学习过程趋近更合理的解?
,模型可以被看成是一种函数映射,但在学习过程中函数的参数的每一次改变都会导致所有的映射空间的变化,那么当观测数据量很大的时候无法考察每次微小的改动对整个映射的改变(映射可能包含非常大的维度),或者有一批新的数据,为了使模型能够拟合该数据需要更新参数,但更新需要对整个映射空间造成影响,由于种种原因无法判别该影响,需要一种局部性更强的方法,,,对偶方法?把参数空间转换为数据的观测空间?来完成局部的改变
对偶如何保证表示学习?如何生成数据?模型参数空间与观测样本空间可以相互转换
- 针对一个固定的类别或者分割的位置,只有图片中的一部分信息是起作用的,当前先验和部分图片内容
- 当有数据过来之后,只有该样本所影响的样本空间区域有变化,不影响其他样本空间映射区域,但如何考虑分层的特征表示学习?
贝叶斯思想——相关向量(分层?)
参数先验,当前观测数据可以得出参数后验,并得到相关向量(可以是虚拟的,并不一定是原始观测数据中的值),那么这时的参数可以完全表征整个模型得到整个输入输出空间映射,而不必带入观测数据,来了新观测数据可以根据相关向量(局部的隐式的)影响参数,,,,相关向量相当于范例的意思,,,,然后如何生成特征核函数?分层模型?
两个可研究的方向
- 以图的形式对图片内容进行高层语义重建,自底向上,注意力+工作记忆,注意力在节点跳转来动态构建高层图,节点上可以放入各种信息如统计信息等
- 局部化形式,参数空间的对偶空间,参数的隐表示,用数据点的影响力代替显式的参数,缺点在如何确定隐状态,隐状态的相关向量