@changedi 2019-03-21T06:10:47.000000Z 字数 4542 阅读 3760

机器学习算法面试题目

机器学习

1.梯度下降算法的正确步骤是什么？

训练CNN时，可以对输入进行旋转、平移、缩放等预处理提高模型泛化能力。这么说是对，还是不对？
下面哪项操作能实现跟神经网络中Dropout的类似效果？
下列哪一项在神经网络中引入了非线性？
https://zhuanlan.zhihu.com/p/39185031
CNN的卷积核是单层的还是多层的？
什么是卷积？
什么是CNN的池化pool层？
什么是生成对抗网络。

https://zhuanlan.zhihu.com/p/39367605

请简要介绍下tensorflow的计算图
你有哪些deep learning（rnn、cnn）调参的经验？
LSTM结构推导，为什么比RNN好？
Sigmoid、Tanh、ReLu这三个激活函数有什么缺点或不足，有没改进的激活函数。

https://zhuanlan.zhihu.com/p/39450005

为什么引入非线性激励函数？
请问人工神经网络中为什么ReLu要好过于tanh和sigmoid function？
如何解决RNN梯度爆炸和弥散的问题？
什麽样的资料集不适合用深度学习？
https://zhuanlan.zhihu.com/p/39533743
广义线性模型是怎被应用在深度学习中？
如何解决梯度消失和梯度膨胀？
深度学习常用方法。
https://zhuanlan.zhihu.com/p/39619083
神经网络中激活函数的真正意义？一个激活函数需要具有哪些必要的属性？还有哪些属性是好的属性但不必要的？
梯度下降法的神经网络容易收敛到局部最优，为什么应用广泛？
简单说说CNN常用的几个模型。
什么是梯度爆炸？
https://zhuanlan.zhihu.com/p/39703500
梯度爆炸会引发什么问题？
如何确定是否出现梯度爆炸？
如何修复梯度爆炸问题？
LSTM神经网络输入输出究竟是怎样的？
什么是RNN？
https://zhuanlan.zhihu.com/p/39881106
简单说下sigmoid激活函数
rcnn、fast-rcnn和faster-rcnn三者的区别是什么
在神经网络中，有哪些办法防止过拟合？
CNN是什么，CNN关键的层有哪些？
GRU是什么？GRU对LSTM做了哪些改动？
https://zhuanlan.zhihu.com/p/39965633
请简述应当从哪些方向上思考和解决深度学习中出现的的over fitting问题？
神经网络中，是否隐藏层如果具有足够数量的单位，它就可以近似任何连续函数？
为什么更深的网络更好？
更多的数据是否有利于更深的神经网络？
不平衡数据是否会摧毁神经网络？
https://zhuanlan.zhihu.com/p/40051944
你如何判断一个神经网络是记忆还是泛化?
无监督降维提供的是帮助还是摧毁？
是否可以将任何非线性作为激活函数?
批大小如何影响测试正确率？
损失函数重要吗？
https://zhuanlan.zhihu.com/p/40135356
初始化如何影响训练?
不同层的权重是否以不同的速度收敛？
正则化如何影响权重？
什么是fine-tuning？
请简单解释下目标检测中的这个IOU评价函数（intersection-over-union）
https://zhuanlan.zhihu.com/p/40217488
什么是边框回归Bounding-Box regression，以及为什么要做、怎么做
请阐述下Selective Search的主要思想
什么是非极大值抑制（NMS）？
什么是深度学习中的anchor？
CNN的特点以及优势
https://zhuanlan.zhihu.com/p/40396143
深度学习中有什么加快收敛/降低训练难度的方法？
请简单说下计算流图的前向和反向传播
请写出链式法则并证明
请写出Batch Normalization的计算方法及其应用
神经网络中会用到批量梯度下降（BGD）吗？为什么用随机梯度下降（SGD）?
https://zhuanlan.zhihu.com/p/40476884
在选择神经网络的深度时，下面哪些参数需要考虑？
当数据过大以至于无法在RAM中同时处理时，哪种梯度下降方法更加有效？
当在卷积神经网络中加入池化层(pooling layer)时，变换的不变性会被保留，是吗？
https://zhuanlan.zhihu.com/p/41070455
输入图片大小为200×200，依次经过一层卷积（kernel size 5×5，padding 1，stride 2），pooling（kernel size 3×3，padding 0，stride 1），又一层卷积（kernel size 3×3，padding 1，stride 1）之后，输出特征图大小为
基于二次准则函数的H-K算法较之于感知器算法的优点是()？
在一个神经网络中，知道每一个神经元的权重和偏差是最重要的一步。如果知道了神经元准确的权重和偏差，便可以近似任何函数，但怎么获知每个神经的权重和偏移呢？
https://zhuanlan.zhihu.com/p/41155891
如果我们用了一个过大的学习速率会发生什么？
在一个神经网络中，下面哪种方法可以用来处理过拟合？
批规范化(Batch Normalization)的好处都有啥？
下列哪个神经网络结构会发生权重共享？
https://zhuanlan.zhihu.com/p/41242084
下列哪个函数不可以做激活函数？
假设我们有一个如下图所示的隐藏层。隐藏层在这个网络中起到了一定的降纬作用。假如现在我们用另一种维度下降的方法，比如说主成分分析法(PCA)来替代这个隐藏层。那么，这两者的输出效果是一样的吗？
假设你需要调整超参数来最小化代价函数（cost function），会使用下列哪项技术？
https://zhuanlan.zhihu.com/p/41416712
在感知机中（Perceptron）的任务顺序是什么？
构建一个神经网络，将前一层的输出和它自身作为输入。下列哪一种架构有反馈连接？
如果增加多层感知机（Multilayer Perceptron）的隐藏层层数，分类误差便会减小。这种陈述正确还是错误？
在训练神经网络时，损失函数(loss)在最初的几个epochs时没有下降，可能的原因是？
https://zhuanlan.zhihu.com/p/41504057
深度学习与机器学习算法之间的区别在于，后者过程中无需进行特征提取工作，也就是说，我们建议在进行深度学习过程之前要首先完成特征提取的工作。这种说法是：
下列哪一项属于特征学习算法（representation learning algorithm）？
提升卷积核(convolutional kernel)的大小会显著提升卷积神经网络的性能，这种说法是
https://zhuanlan.zhihu.com/p/41586262
线性分类器与非线性分类器的区别以及优劣
简单说说贝叶斯定理
https://zhuanlan.zhihu.com/p/30926070
说下红黑树的五个性质
简单说下sigmoid激活函数
https://zhuanlan.zhihu.com/p/31097559
说说梯度下降法
梯度下降法找到的一定是下降最快的方向么？
什么是拟牛顿法
https://zhuanlan.zhihu.com/p/31229539
说说共轭梯度法
什么最小二乘法？
Python是如何进行内存管理的？
https://zhuanlan.zhihu.com/p/31258681
说说常见的损失函数
简单介绍下logistics回归
https://zhuanlan.zhihu.com/p/31305871
在分类问题中，我们经常会遇到正负样本数据量不等的情况，比如正样本为10w条数据，负样本只有1w条数据，以下最合适的处理方法是( )
https://zhuanlan.zhihu.com/p/31337162
Nave Bayes是一种特殊的Bayes分类器,特征变量是X,类别标签是C,它的一个假定是
https://zhuanlan.zhihu.com/p/31366886
RNN是怎么从单层网络一步一步构造的的?
https://zhuanlan.zhihu.com/p/31537794
标准化与归一化的区别?
https://zhuanlan.zhihu.com/p/31607791
随机森林如何处理缺失值
随机森林如何评估特征重要性
优化Kmeans
KMeans初始类簇中心点的选取
解释对偶的概念
如何进行特征选择？
https://zhuanlan.zhihu.com/p/31682499
数据预处理
简单说说特征工程
https://zhuanlan.zhihu.com/p/31725691
衡量分类器的好坏
https://zhuanlan.zhihu.com/p/31797529
如何理解LSTM网络？
https://zhuanlan.zhihu.com/p/32157649
Bagging与Boosting的区别
https://zhuanlan.zhihu.com/p/32226365
L1与L2范数
正则化
特征比数据量还大时，选择什么样的分类器？
https://zhuanlan.zhihu.com/p/32362052
数据清理中，处理缺失值的方法是?
https://zhuanlan.zhihu.com/p/32396385
带核的SVM为什么能分类非线性问题？
常用核函数及核函数的条件：
逻辑回归相关问题
https://zhuanlan.zhihu.com/p/32622819
什么是共线性, 跟过拟合有什么关联?
机器学习中，有哪些特征选择的工程方法？
https://zhuanlan.zhihu.com/p/32656102
bootstrap数据是什么意思？
https://zhuanlan.zhihu.com/p/32738678
我们想在大数据集上训练决策树, 为了使用较少时间, 我们可以
https://zhuanlan.zhihu.com/p/32808814
对于维度极低的特征，选择线性还是非线性分类器？
https://zhuanlan.zhihu.com/p/33016414
SVM、LR、决策树的对比
什么是ill-condition病态问题？
简述KNN最近邻分类算法的过程？
常用的聚类划分方式有哪些？列举代表算法。
https://zhuanlan.zhihu.com/p/33057428
特征向量的归一化方法有哪些？
https://zhuanlan.zhihu.com/p/33177339
优化算法及其优缺点？
RF与GBDT之间的区别与联系？
下面哪个/些超参数的增加可能会造成随机森林数据过拟合？
https://zhuanlan.zhihu.com/p/33206641
ID3、C4.5、CART、随机森林、bagging、boosting、Adaboost、GBDT、xgboost算法总结
https://zhuanlan.zhihu.com/p/34534004

机器学习算法面试题目

内容目录

选择主题