北京看白癜风哪里医院最专业 https://disease.39.net/yldt/bjzkbdfyy/腾讯案例
本项目由腾讯投递并参与“数据猿行业盘点季大型主题策划活动——#榜样的力量#《新冠战“疫”——中国数据智能产业最具社会责任感企业》榜单/奖项”评选。
01
疫情形式向好,复工复学提上日程
疫情的反复,导致全国多地反复陷入“停工停学”的状态。在疫情得到逐步控制的过程中,迫切希望将“复工复学”提上日程的广大政府、企事业单位、院校、公益组织和大众群体面临庞大的健康信息收集、申报、跟踪、统计工作:例如学校、单位等往往需要提前收集与确认相关成员的健康信息,包括健康码、行程码、核酸监测结果等。往往这些工作都是老师、社区工作者、行政HR等手动、人工完成,工作量巨大且十分繁复,同时在精准性上不容有失。
02
为防止疫情反扑及隐匿传播,做好健康信息统计工作至关重要
为保障各地“复工复学”工作的顺利进行,将“隐匿传播”扼杀在摇篮之中,腾讯问卷团队结合成员切身需求——腾讯问卷疫情健康申报服务项目应运而生,如何将自动识别图片信息的能力与问卷已有的表单收集能力结合起来、并为问卷管理员提供高效准确的统计服务成为项目的重中之重。
腾讯问卷联合腾讯云微搭、腾讯云AI、优图、腾讯技术公益团队推出的疫情健康申报服务,便是基于表单收集与数据统计功能,在腾讯云微搭低代码能力的支持下,通过腾讯云AI的OCR文字识别技术,实现快速识别健康码、行程码、核酸检测、抗原检测结果等各类截图。
项目开发起止时间:
开始时间:年4月14日
截止时间:针对全国不同地区持续开发优化中
服务周期:服务中
应用场景
1.主要应用场景
疫情健康服务主要应用于疫情之下的复工、复学场景,帮助有需求的政府机构、教育单位、企业及其他社会组织进行复工、复学健康情况统计。
2.用户需求
·统计端:通常情况下,复工复学需要管理人员逐人逐图检查健康防疫信息,人工工作量大,且有出错、遗漏的可能性。
·上传端:返校、复工时,大家需要配合各种健康信息申报要求,如连续3天,每天提交小孩与同住人的各种截图,有的被要求拼图提交,有的被要求打包上传。对用户尤其是广大家长们有一定的操作难度。
3.服务优势
相比群接龙、在线文档类竞品解决用户大范围收集图片的问题,腾讯问卷疫情健康服务的创新点在于通过OCR文字识别技术,将健康码等图片的信息智能识别出来,快速判断图片的信息是否存在异常情况,同时可基于填报名单实时统计填答进度,较大程度解放了单位管理人员的工作量,在提升统计效率、准确度方面提供助力。
面临挑战
1.社会需求紧迫,可供研发的时间紧急
从发现广泛的社会需求到最紧急的深圳地区复学窗口期,只有短短48小时的时间留给技术团队进行开发。
2.需要迅速完成图像识别能力的集成
腾讯问卷本身并没有图像识别能力,如何快速开发/集成相关能力,为后续开发及训练工作争取时间成为当务之急。
3.图像识别应用需要大量的开发、模型训练工作
对于智能图像识别,除了需要快速搭建模型框架,还需要大量的样本供模型进行识别。
健康码、行程卡等截图识别中,各省市健康码的版式,字段规则并不一致,通过文字识别结果的正则提取较为繁琐,难以应对。
相比健康码、行程卡识别,抗原检测识别遇到的挑战更多:例如检测结果多样,抗原检测结果分阴性,阳性,弱阳,以及两种无效5种类型;照片质量参差不齐,多数用户背景环境复杂,光线,清晰度大多不理想,不利于识别;训练样本较少,早期抗原棒普及程度较低,全网阳性样本收集数据不足50份,无效样本不足10份。
技术开发过程
1.核心思路
产品方案核心思路是打通问卷创建分享投放回收查看统计催答的健康信息申报全流程,帮助老师/行政管理人员(编辑端)快速收集相关人员的健康信息,实时了解填答进度,并且通过智能识别获取健康信息异常名单,方便进行催答或上报。
同时也通过问卷的形式规范家长、员工等人员(填答端)提交指定内容,不漏填错填,也能方便补交。
2.整体技术方案AI智能识别能力实现与能力开放输出开展
1)AI智能识别能力实现
健康码、行程卡等截图识别
由于各省市健康码的版式,字段规则并不一致,通过文字识别结果的正则提取较为繁琐,难以应对。腾讯优图算法同学基于智能结构化OCR,以多模态文档理解的形式,自动提取复杂多变版面的结构化信息。
智能结构化OCR结合文档文字内容、图像、版式布局等多模态信息,通过5亿+大规模文档无监督预训练,结合下游结构化任务微调。单一模型能够兼容+不同版式的文档结构化信息提取。相比于业界其他文档信息提取方法,具有精度高、泛化能力强的特点。
健康码识别场景,待提取的字段相对固定,主要包括:健康码颜色、持码人姓名、持码人身份证号、亮码时间等。由于不同城市的健康码版式不一致,且字段名称及字段内容格式不同,通用的智能结构化模型在直接使用时,需要对于字段名称进行格式化。
不同地区的健康码,包含的字段内容有所不同:
(各地健康码示例)
针对该类问题,算法同学提出通过智能结构化的语言理解模型学习字段不同表示之间的内在联系,自动做到字段名称格式化处理,即智能结构化含标签模式。该方案在通用智能结构化基础上,通过字段的标签信息(字段归一化名称)先验信息,引导结构化结果输出。通过单一结构化模型,兼容不同城市的健康码,同时也极大便利了字段扩展(例如扩展检测时间、失效时间等字段)。最终取得健康码场景高指标、高泛化的效果。
(随申码效果展示)
抗原检测照片识别
相比健康码、行程卡识别,抗原检测识别遇到的挑战更多——
检测结果多样,抗原检测结果分阴性,阳性,弱阳,以及两种无效5种类型;
照片质量参差不齐,多数用户背景环境复杂,光线,清晰度大多不理想,不利于识别;
训练样本较少,早期抗原棒普及程度较低,全网阳性样本收集数据不足50份,无效样本不足10份。
(抗原检测结果示例)
(抗原检测识别测试素材)
数据收集和增强方面,我们通过对阴性样本进行PS,伪造多张阳性样本和无效样本图片,并且利用图片变形,旋转等手段,将图片数量扩展到万张。
另外通过迁移学习,多模型融合提高抗原识别准确度。用户提供照片中,存在大量无效图片,使用CNN模型快速识别出有抗原的照片,提供给下一模型判断。下一模型使用NasNet的预训练模型,在极低学习率下进行迁移学习。
2)能力开放输出
输入输出格式标准化
不同地区健康码中的