e-works数字化企业网  »  文章频道  »  基础信息化  »  移动应用

深度学习在美团点评中的应用

2017/3/24    来源:网络大数据    作者:佚名      
关键字:深度学习  美团  
近年来,深度学习在语音、图像、自然语言处理等领域取得非常突出的成果,成了最引人注目的技术热点之一。

    对于每个维度图片属性的学习,都需要大量的标签数据来支撑,但完全通过人工标记代价极大,因此我们借鉴了美团点评的图片来源和POI标签体系。关于吸引度属性的学习,我们选取了美团Deal相册中点击率高的图片(多数是摄影师通过单反相机拍摄)作为正例,而选取UGC相册中点击率低的图片(多数是低端手机拍摄)作为负例。关于品类属性的学习,我们将美团一级品类和常见二级品类作为图片标签。基于上述质量排序模型,我们为广告POI挑选最合适的优质首图进行展示,起到吸引用户点击,提高业务指标的目的。图3给出了基于质量排序的首图优选结果。
 
    深度学习在美团点评的应用
 
    基于深度学习的OCR
 
    为了提升用户体验,O2O产品对OCR技术的需求已渗透到上单、支付、配送和用户评价等环节。OCR在美团点评业务中主要起着两方面作用。一方面是辅助录入,比如在移动支付环节通过对银行卡卡号的拍照识别,以实现自动绑卡,又如辅助BD录入菜单中菜品信息。另一方面是审核校验,比如在商家资质审核环节对商家上传的身份证、营业执照和餐饮许可证等证件照片进行信息提取和核验以确保该商家的合法性,比如机器过滤商家上单和用户评价环节产生的包含违禁词的图片。相比于传统OCR场景(印刷体、扫描文档),美团的OCR场景主要是针对手机拍摄的照片进行文字信息提取和识别,考虑到线下用户的多样性,因此主要面临以下挑战:
 
    成像复杂:噪声、模糊、光线变化、形变;
 
    文字复杂:字体、字号、色彩、磨损、笔画宽度不固定、方向任意;
 
    背景复杂:版面缺失,背景干扰。
 
    对于上述挑战,传统的OCR解决方案存在着以下不足:
 
    通过版面分析(二值化,连通域分析)来生成文本行,要求版面结构有较强的规则性且前背景可分性强(例如文档图像、车牌),无法处理前背景复杂的随意文字(例如场景文字、菜单、广告文字等)。
 
    通过人工设计边缘方向特征(例如HOG)来训练字符识别模型,此类单一的特征在字体变化,模糊或背景干扰时泛化能力迅速下降。
 
    过度依赖字符切分的结果,在字符扭曲、粘连、噪声干扰的情况下,切分的错误传播尤其突出。
 
    针对传统OCR解决方案的不足,我们尝试基于深度学习的OCR。
 
    1. 基于Faster R-CNN和FCN的文字定位
 
    首先,我们根据是否有先验信息将版面划分为受控场景(例如身份证、营业执照、银行卡)和非受控场景(例如菜单、门头图)。
 
    对于受控场景,我们将文字定位转换为对特定关键字目标的检测问题。主要利用Faster R-CNN进行检测,如下图所示。为了保证回归框的定位精度同时提升运算速度,我们对原有框架和训练方式进行了微调:
 
    考虑到关键字目标的类内变化有限,我们裁剪了ZF模型的网络结构,将5层卷积减少到3层。
 
    训练过程中提高正样本的重叠率阈值,并根据业务需求来适配RPN层Anchor的宽高比。
 
    深度学习在美团点评的应用
 
    对于非受控场景,由于文字方向和笔画宽度任意变化,目标检测中回归框的定位粒度不够,我们利用语义分割中常用的全卷积网络(FCN)来进行像素级别的文字/背景标注,如下图所示。为了同时保证定位的精度和语义的清晰,我们不仅在最后一层进行反卷积,而且融合了深层Layer和浅层Layer的反卷积结果
 
    深度学习在美团点评的应用
 

责任编辑:李欢
本文为授权转载文章,任何人未经原授权方同意,不得复制、转载、摘编等任何方式进行使用,e-works不承担由此而产生的任何法律责任! 如有异议请及时告之,以便进行及时处理。联系方式:editor@e-works.net.cn tel:027-87592219/20/21。
兴趣阅读
相关资料
e-works
官方微信
掌上
信息化
编辑推荐
新闻推荐
博客推荐
视频推荐