@heavysheep
2019-04-24T18:30:25.000000Z
字数 3389
阅读 1532
未分类
大家好,刚来星球几天,还没看到大家有讨论过深度学习领域。恰好前些天跟几位技术大佬有聊一些此方向应用的话题,在此也做个分享。本人的技术能力并非业界顶尖,也非大厂员工,以创新公司的视角写出,抛砖引玉,如有错漏,请大家批评指正。
深度学习火热的大量资本涌入,产生了许多项目进行各种各样的尝试。与这个行业的热钱和关注度相比,除去人脸识别方向,现阶段应用变现依然困难。比较可惜的是,除去有明确应用场景,需要研发周期的项目外,还有一些技术的应用场景被开发的还不够,也许还有新的商机容纳其中。
从我的角度看,制约技术应用变现的问题包括不限于:
1. 缺乏同时对技术和行业都充分了解的领导者
深度学习的知识构成既广且深,发展又迅速,即使是传统技术型领导,在没有充分学习时,也很难对项目各个问题做准确的预估,而对行业有了解的人往往也不理解深度学习技术。我的感受是两项特质没有集中在同一个人身上时,中间的沟通成本过于巨大,很难做好技术和业务的trade-off,也提不出好的应用场景。
2. 数据获取和标注成本不低
模型是数据的游戏,没有合适的数据不可能获得好的模型。深度学习技术毕竟是对非凸问题进行优化的,这要求真实数据务必和训练数据尽可能同一分布。因此鲁棒性和精准无法同时保障是常见现象,人工的收集和标注带来的高昂成本也是制约应用的一大原因。
3. 算力需求高带来的掣肘
轻量化模型的精度难以应用大量业务。较深的模型不便于手机应用,以GPU服务器来处理也需要考虑传输、产品体验等多方面问题。
但在今年这个时间点,也许是深度学习技术应用变现的转折点,包括不限于:
1. 从近期论文来看,技术还是在稳定进步的,baseline不断被刷新,多个方向均有显著突破,某几个方向还未被广泛应用的技术已经足够实现商业化落地。
2. 几家大厂开放了越来越多的API,方便了不从事研究工作的公司业务落地。
3. 得益于高薪宣传,后几年优秀人才会越来越多。
下面我简单说一下深度学习部分计算机视觉的几个主要方向及已有/可能的应用场景。mAP的解释可以点这里。
另外,对真实的应用场景来说,误检率是客观存在的,简化/规范数据的输入,优化业务流程都能极大的提高mAP,比如目标检测方向比较中,速度较快模型mAP在40+,由于我们通过器材控制输入质量,使得实测mAP超过92,(所谓)准确率超过99%,所以不要低估技术难度,也不要高估业务场景,技术的变现可以更多来自业务的优化而非技术的进步。
深度学习中的图像分类主要是指判断图片的内容是否是训练中的某一类别,这个方向机器早已超过人类,较简单的数据集准确率超过97%,相对来说是CV中最简单的技术,也是其他方向的基石。落地的场景很经典的是形色、非法图片识别的一些服务等。
应用场景: 识别能力超过人类本身就意味着业务场景可以被开发,我遇见一个有意思方向是某个文化场地做活动,即发布一个任务,要求再一个较大场地找到某个内容,拍照上传校验。这个需求用分类可以直接解决掉,由于目标不多,误检率要求不高,反馈迅速,实现也比较好。
人脸识别可以说是深度学习技术应用最好的方向,1:1的识别中准确率和抗攻击能力早已超过人类。18年去年末的新闻是千万分之一误报率的识别准确率超过99%。其相关的人脸检测技术能预测出目标的年龄、性别等多项信息。
虽然已经非常完善,但还有足够的进步空间,比如人脸技术要求有一个相对完美的输入,如果对方不是主动配合,得到的图片质量往往不高照片质量不高会降低准确率,当数据库存了较多低质量图片时,整体准确率都会显著降低。这制约了不少想依靠人脸识别做无感知来做统计和重识别的商家,因为常规45度斜拍的摄像头经常拿不到良好的输入人脸。
应用场景: 我们接过一个大厂的展会项目,通过直拍摄像头和第三方API调取,一周就完成了一个展厅人流统计,包括年龄分布、识别回头客等等,因为流量不太大规避了技术短板问题,最后效果还不错。我们还考虑过户外大屏扫描人脸互动,对目标简单分析后进行广告精准投放的项目。
识别一张图中的多个目标,每个目标的位置识别为正矩形框。最新的论文在COCO上的结果是30ms/34.4AP和270ms/47AP。
应用场景: 由于能一次性识别目标类型和目标位置,目标检测是一个应用非常广的方向,单单只是对人的识别就极有价值,比如人流热力图及其对应分析,脱岗离岗的识别,我这边也接到过安全生产的需求,比如是否戴安全帽,是否有明火等,也有一个面包检测的项目准备落地。
前些天大厂都开源了对应的目标检测功能,有线下资源的可以考虑通过调取他们的API切入。
实例分割是目标检测的加强版本,从识别正矩形框变成了识别边缘像素。相对应的,运算速度就差了很多,一般在目标检测5倍以上。
应用场景:与目标检测的需求场景比较类似,在某些要求更加精细的场景中更加好用一些,比如在工地拍摄钢筋拍一张图片直接清点钢筋数目,在密集的人群中统计人数,弹幕防挡人,自动抠图等,都是较好此方面的应用。
动作识别是指在一个视频中识别指定动作,和人体姿态估计也有一定联系,在CV中是偏冷门一点的方向,准确率大约是50%左右。
应用场景:我看过见过有用此技术去实现老人摔倒报警的业务,可能对养老产业会有一些帮助。
姿态估计是基于图像重建人的关节和肢干(识别人体关键点),主要数据集上mAP超过70。今年这方面技术进一步成熟,是我个人非常看好的方向。
应用场景:落地上可以考虑姿势纠正(健身房、拳击馆、瑜伽对动作要求高的业务商家)、虚拟试衣间等。对人体姿态的分析会带来许多玩法,我们也有一个项目准备在这方向着手。
在一个视频流中,追踪目标(通常指人)在其中的活动。tracking当然是比较久远的技术,大约在2015年深度学习才开始进入tracking方向,比较好的超越了以往的技术。这方面有一些实时化的算法,但需要注意的是“一个”视频流,所以实时应用只能作用于一个摄像头。
去年用过一款还算先进的算法,没有论文里那么美好,主要问题是A和B交错后较难区分A、B具体谁是谁,45度斜拍时准确率比较高。
应用场景: 可以应用关键位置的人流统计、分析等,安防维稳潜力巨大。看过国外一款产品,用于小型门店中的动线分析,将三维地图转换为二维并且追踪每位客人在店里的动线,即可获得路线、停留时长、停留点等,以此分析商品对客户吸引力之类的。
找到多摄像头下的同一个人。大多数的行人重识别算法高度依赖精准的人体检测实现目标对齐,可以说是随目标识别越强大,应用面越广的方向。和tracking相结合,可以实现跨摄像头的追踪。
应用场景:大型场景的统计分析,安防维稳等方面可能有较高价值。
识别图中的文字并可以提供文字在图中的位置。不了解这个方向。
应用场景: 技术可以应用在许多文件转文本的需求上,拍照翻译,发票识别等业务中。
半年前我们调研发票识别业务时,使用过多个第三方API,结果都不太满意,应该还有很多发展空间。
通过多视角图片生成3D模型,不了解这个方向。谷歌开发者大会时玩过他们的应用,拍照直接生成3D家居模型,在手机里就可以重新装修摆放了。方向潜力巨大,能和其他方向联动,距离应用应该还蛮远的。
著名的GAN,土豪的玩具。在多个领域都有涉及,在CV中,常见于风格迁移、超分辨率、人脸修复等。在日常使用中,风格迁移常被用来制作沙雕图、表情包等,其他应用往往会出现在新闻里,比如对某些视频的女星进行变脸毫无违和感,或者预测未来的脸等等。超分辨率则可以补强图片分辨率用来为其他技术做铺垫。大部分GAN模型的训练成本都很高,且民用也主要围绕好玩做文章。非民用的话,相关技术都很有价值,大家都懂。
应用场景: 国内产品中,马卡龙玩图似乎应用了此项技术。