虚拟背景依托于人像分割技术,通过将图片中的人像分割出来,对背景图片进行替换实现。根据其使用的应用场景,大体可以分成以下三类:
直播场景:用于氛围营造,例如教育直播、线上年会等;
实时通讯场景:用于保护用户隐私,例如视频会议等;
互动娱乐场景:用于增加趣味性,例如影视编辑、抖音人物特效等。
实现虚拟背景需要用到哪些技术?
实时语义分割
语义分割旨在对图像的每个像素进行标签预测,在自动驾驶、场景理解等领域有着广泛的应用。伴随移动互联网、5G等技术的发展,如何在算力受限的终端设备进行高分辨率的实时语义分割,日益成为迫切的需求。上图列举了近年来的实时语义分割方法,本小节将对其中的部分方法进行介绍。
BiSeNet:BilateralSegmentationNetworkforReal-timeSemanticSegmentation
先前的实时语义分割算法通过限定输入大小、减少网络通道数量、舍弃深层网络模块来满足实时性的需求,但是由于丢弃过多空间细节或者牺牲模型容量,导致分割精度大幅下降。因此,作者提出了一种双边分割网络(BiseNet,ECCV),网络结构如上图所示,该网络由空间路径(SpatialPath)和语义路径(ContextPath)组成,分别用于解决空间信息缺失和感受野缩小的问题。
空间路径通过通道宽、深度浅的网络来获取高分辨率特征,保留丰富的空间信息;而语义路径则是采用通道窄、深度深的轻量骨干模型,通过快速下采样和全局平均池化提取语义信息。最后利用特征融合模块(FFM)对两个路径的特征进行融合,实现精度和速度之间的平衡。该方法在cityscapes测试集上的MIOU为68.4%。
升级版BiseNetV2延续了V1版本的思想,网络结构如上图所示,V2版本去除了V1空间路径中耗时的跳跃链接(skipconnection),增加双向聚合层(AggregationLayer)增加两个分支之间的信息聚合,并提出了增强训练策略进一步提升分割效果,在cityscapes测试集上的MIOU提升到了72.6%,在使用Ti的TensorRT上FPS可以达到。
DFANet:DeepFeatureAggregationforReal-TimeSemanticSegmentation
DFANet(CVPR)设计了子网聚合和子阶段聚合两种特征聚合策略来提升实时语义分割的性能。DFANet的网络结构如上图所示,包含3个部分:轻量骨干网络、子网聚合和子阶段聚合模块。轻量骨干网络采用了推理速度较快的Xception网络,在其顶层加入全连接注意力模块增大高层特征的感受野;子网聚合通过重用先前骨干网络提取的高层特征,将其上采样后作为下一个子网的输入,增大感受野的同时,细化预测结果;子阶段聚合模块则是利用不同子网相应阶段的特征融合多尺度结构细节,增强特征的判别能力。最后通过轻量的解码器,融合不同阶段输出的结果,从粗到细地生成分割结果。在Cityscapes测试集上MIOU为71.3%,FPS为。
SemanticFlowforFastandAccurateSceneParsing
受到光流的启发,作者认为由同一张图片生成的任意两个不同分辨率的特征图之间的关系,也可以用每个像素的流动表示,提出了SFNet(ECCV),网络结构如上图所示。
因此,作者提出了语义流对齐模块(FlowAlignmentModule(FAM))来学习相邻阶段特征的语义流,然后通过warping将包含高层语义的特征广播到高分辨率的特征上,从而将深层特征的丰富语义高效传播到浅层的特征,使得特征同时包含丰富语义和空间信息。作者将FAM模块无缝插入到FPN网络中融合相邻阶段的特征,如上图所示。SFNet能在实时分割的情况下(FPS为26),在Cityscapes可以达到80.4%mIoU。
人像分割
人像分割是语义分割的子任务,目标是将图片中的人像从背景中分割出来,属于二类分割。相比于语义分割,人像分割相对简单,一般应用于手机端等端侧设备,目前的研究目标大体可以分为两类,一是通过改进网络设计轻量高效人像分割模型,二是增强人像分割的细节。
Boundary-sensitiveNetworkforPortraitSegmentation
BSN(FG)主要