@Radon 2015-05-31T18:11:00.000000Z 字数 1264 阅读 1800

论文提纲

未分类

论文提纲

点击正文右侧蓝底加号可以直接添加批注

第1章引言

1.1 研究背景和意义

(500字)
介绍信用评估的概念，历史发展，在大数据背景下的新发展。

1.2 信用评估的应用领域

(900字，大致上保持现有论文的内容)
1.2.1 P2P贷款
1.2.2 信用贷款
1.2.3 信用评分/级

第2章信用评估相关算法

2.1 信用评估中的数据与特征

(600字)

介绍信用评估模型会使用到的特征，用于提取这些特征的数据，及其各自的特点。

2.2 信用模型

(4000字左右)

2.2.1 概述

信用评估模型的发展。介绍本节内容的展开脉络。

2.2.2 传统信用评估模型
(600字)
概述传统的金融模型及其相对于基于机器学习的模型存在的不足。判别分析(Discriminant analysis)、逻辑回归等。

2.2.3-2.2.5的内容为介绍算法框架。
以及每种算法衍生的不同模型及其在信用评估领域的改进和发展

2.2.3 SVM

2.2.4 决策树

2.2.5 神经网络

2.2.6 集成学习

介绍不同的集成学习方法及其优势。

2.2.6.1 随机森林(Random Forest)

2.2.6.2 梯度提升决策树(GBDT)

2.2.7 混合模型/展望

不同模型各有各的优势，概述已有的综合不同的模型的方式。

第3章基于GBDT的信用评估模型

(1600-2000字)

3.1 模型细节

分解算法流程，结合信用评估分析每一个细节对应的意义。
为下文算法改进作铺垫。

3.2 模型改进

3.3.1 样本采样
3.3.2 基分类器

3.3 评价标准

介绍要用于测试的评价标准及在信用评估中使用这种标准的考虑：（目前选择）ROC曲线和confusion matrix

confusion matrix or the ACC rate, the estimated misclassification cost, mean‐square error (MSE), root‐mean‐square error (RMSE), mean absolute error (MAE), the ROC curve, GINI coefficient and other criteria,

第4章模型实现与评测

(多图表)

4.1 测试数据集

(400字)
1. 介绍下文实验中涉及的多个数据集。
2. 数据集之间的横向对比。

4.2 参数分析

(1500字)

分析各个参数对正确率以及ROC曲线等的影响。

4.2.1 迭代次数
4.2.2 学习速度
4.2.3 样本采样率

4.3 模型优势

(600字)

多个数据集、多种算法之间准确率的对比
表现比较好的算法与GBDT的1v1的对比，对比细化到训练/预测速度、不同评价标准下的表现等。

第5章总结和展望

5.1 总结

5.2 后续工作展望

多分类
目标函数：损失(模型有多拟合数据) + 正则(对复杂模型的惩罚)
特征选择