@zhuanxu
2017-12-15T14:10:37.000000Z
字数 240
阅读 2397
one-hot
机器学习
我们在面对category类型的变量的时候,一个常用的方法就是进行one-hot encoding,但是为什么这么做呢?举个例子,假设有一列叫婚姻状态,可能值有:单身,已婚,离异。我们可以将其直接编码为0,1,2,这样子的话,我们在一些计算距离的算法中,0和1会比0和2离的更近,但其实0,1,2都是一样的,所有一个解决方法就是将婚姻状态这列转换为3列,每列都用0,1来表示是否是该值,这样子彼此之间的距离就一样了,保证了语义的一致性。