@heavysheep
2018-06-23T12:28:33.000000Z
字数 2681
阅读 656
未分类
针对上次模型过拟合、对包装识别差的问题做了种种针对性的优化,本次模型的效果推进比上次强了许多,但仍然无法达到商业使用。
现在项目面临的主要情况有:
在目前实地测试的20个分类中(实际模型种类26中,当天只上了20种),多数(15个)特征明显的分类都获得了较稳定的识别效果,可以达到95%以上的准确率。小部分品类的预测出现了无法识别(欠拟合)、某种角度识别错误(特征提取效果不佳)等等情况,导致模型整体效果不良。其中,无包装的面包均表现良好。
在试验中,对100种分类,可能前98个识别率非常高,而最后2个无法识别效果很差,综合来看,该模型能获得一个很高的mAP(一种通用的视觉识别衡量标准),这在学界中是非常有价值的,而在工业环境中,毫无疑问我们无法接受这一点,因为我们不能使用一个在面对某个商品就失效的模型。目前在当今学界中,并没有一个合适的方案解决这个问题,只能通过延长训练周期,或不停的尝试-调整各个分类权重。
塑料包装是这一次测试主要尝试解决的子问题,也是需求大量数据的最大元凶,虽然本次有了一些突破性的成果,但依然为此困扰。
首先: 透明的包装即使规整,也会对其下方的样本内容有一定的雾化效果,因为在这种特征识别中,计算机是纯2D的,无法像人一样理解其透明包装是不重要的;
其次,透明的包装会产生大量的反光,在2D层面上,物体的不均匀反光毫无疑问屏蔽了样本反光部分的特征,而反光又不具备稳定性,对特征的提取和识别都是非常大的影响;
再次,一些软塑料的包装是不稳定的,即时不停拍摄同一样本,其每次的形态必定不同,这一区域内的变化是无穷大复杂的,这就造成在一个很小的区域内,需要很深层的特征提取才能形成一个局部最优解:即让模型认为雾化和变形效果是不重要的或是不需要提取的--但当特征提取器更加复杂时,反而会影响其他稳定识别的效果,这种杠杆式的平衡需要开箱检测时,校验成本就会变的非常高;
最后,需要包装的内容内部往往是不规则的,比如多个饼/面包的无穷尽可能的复杂堆积,人类知道一盒饼干是由多个饼干的堆积形成,而我们只能告诉模型这个“不规则的堆叠块”就是一盒饼干,而不是多个一只组成的等等--在无穷复杂度下,计算机提取这一部分也需要更深层的理解。
为了拟合大多数情况的识别,目前为每一种品类需要提供80张图片作为数据集,在拍摄和标注数据时成本都非常高。一个模型在实际使用中需要采集的特征包括但不限于:
因此作为本地化高速的浅层的模型,必然需要每一层都极尽所能的拟合以上的识别情况,每个品类、区域深浅不一的特征形态为模型的训练带来了极大的挑战,这也是浅层模型不可避免的问题(多层的复杂模型会有限的增强效果,但无法本地化使用)。
对任意一个模型来说,分类越多,所面临的平衡性难度、准确率都会指数级相应放大,更复杂的、类似yolo_v3之类的模型能勉强支撑鲁棒性较高情况下的1000种分类,而在高速模型下,分类超过100已经显得捉襟见肘,为此我们希望在识别sku超过80的情况下使用云GPU方案(网络远程识别)加入高层模型以解决分类上限的负载问题,同时也带来了新的问题--更高的研发成本(多模型解决同一个问题)和更高的服务器成本(一台用来训练、一台用来提供服务)。
1在目前的服务器下,2000+图片,使一个模型成型(30W+像素点,每步3-4秒,10W步成型)约需要3天时间,我得到一个方案是否可以应用的回馈周期也是极长的。在这种业务推进时期,服务器算力必须得到提升。
模型方面,毫无疑问需要进一步的研究和实验,但随着本次测试的突破后,留下可以进一步优化的点越来越少,提升也越来越难。在只有我一个人情况下,解决这些面临的问题可能需要3个月,也可能面临毫无进展的失败。
业务方面,张总提出在业务上,记录失败或不稳定分类的图像,以此回馈模型进一步提升--这是可行的,更多的假负例真数据确实是提升模型准确度中常见的方法。
另外,业务上如果能有效的解决反光问题,以及使用与面包颜色不同的纯色餐托,也能有效提升准确率。
如果面对的商品是没有包装的,我们可以尝试将其压缩在30张。否则只能通过进一步的模型研究来减少。
另一个问题是我们暂时无法允许用户远程提供图片过来--对数据特征在深度学习的敏感性是需要训练的,就如同对数学数据敏感一样。行业外的人无法拍摄价值极高的样本数据,这就需要在测试期间,我本人需要前往实地进行数据采集。
如3.4所说,这其实是一个研发成本和经济成本问题。我认为如果项目继续,需要投入5000/月/台的GPU服务器,以提升3倍的算力。在实际提供服务前,只需要一台作为训练。
此外,由于我本人需要每天3次在实地观察,如果上海没有实体店,在南京的食宿也是需要纳入成本考量的部分。
以银豹收银来说,他们现在在处理的面包,均是无包装的烘焙面包,并且使用云GPU的复杂模型来解决所有问题。每个品类远程提供30张以上的图片。在5月的了解中,目前银豹只是摆出了方案和样机,据了解还要3个月以上的研发和测试。
那我们对银豹型的优势有:
劣势有:
如上所说,随着本次测试结束,项目进一步推进面临的成本增加和技术瓶颈已经是不可避免的问题。在技术上,我能保证我们所碰到的所有问题,也都会准确的砸在我们的竞争对手头上。同时也希望公司的高层通过这份文档了解到项目目前的风险,我们所做的是风险和价值都很高的项目,可能会因为成功快速抢占市场,也可以因为失败失去所有的投入。