数据结构论坛

首页 » 分类 » 常识 » 深度学习助力数据压缩,一文读懂相关理论
TUhjnbcbe - 2025/7/2 16:37:00
北京看白癜风哪家医院好 https://wapjbk.39.net/yiyuanfengcai/tsyl_bjzkbdfyy/y8r1e72/

机器之心原创

作者:仵冀颖

编辑:HaoWang

在网络带宽有限的年代,数据压缩显得尤为可贵。还记得美剧硅谷第一季里面大杀四方的数据压缩算法让piedpiper公司炙手可热。高效的数据压缩使得大型网络应用能够在移动端成为可能,其前景非常诱人。大数据时代的来临,数据的体量和数据的增长速度都达到了一个前所未有的高度。随着5G技术的快速发展,边缘计算、物联网、联邦学习等应用需求及应用场景越来越多。在传输网络和存储能力有限的情况下,数据压缩技术发挥了越来越重要的作用。在传统数据压缩算法不断发展的同时,近年来深度学习网络也应用于数据压缩中获得了很好的效果。

本文对数据压缩的「前世今生」进行简要的回顾,重点分析基于深度学习的有损压缩、无损压缩方法,对基于深度学习的数据压缩进行了探讨和展望。

1、数据压缩背景知识

众所周知,信息理论和机器学习之间具有很强的关联性,人们经常把它们称为「同一枚硬币的两面」。二者一个特别重要的联系体现在数据概率模型和数据压缩方法之间的本质等价性。香农的信源编码定理(Shannon-FanoCoding)可以看作是描述这一思想的基本定理,而哈夫曼编码(HuffmanCoding)、算术编码(ArithmeticCoding)和最近发展起来的非对称数字系统(AsymmetricNumeralSystems,ANS)等都是经典的基于统计模型实现数据压缩的算法,即基于对信息中单个字符出现频率的统计而设计的。除去以统计概率为基础的方法外,经典的数据压缩方法还包括基于字典模型的压缩技术,例如LZ77、LZ78、LZW等,以及熵编码(EntropyEncoding),游程编码(Run-LengthEncoding)等。

我们在日常中经常用到的数据压缩的工具基本都是上述几种经典方法的变种、组合或优化,很少有单独使用某一种技术。例如,gzip的压缩原理是:先使用LZ77算法的一个变种进行压缩,对得到的结果再使用静态或动态哈夫曼编码的方法进行压缩;bzip2的压缩原理为:使用了一个游程编码器进行编码,接下来块排序压缩和Move-to-Front(MTF)变换进一步产生大量相同符号,进一步使用另一个游程编码器进行编码。最后结果用Huffman编码,将一个消息头与其打包;LZMA是Deflate和LZ77算法改良和优化后的压缩算法,而Deflate则是同时使用了LZ77算法与哈夫曼编码的一个无损数据压缩算法。但是,面对大数据时代的数据处理,传统的数据压缩方法显得越来越力不从心,无法满足大体量、快速增长和结构复杂等特征的数据压缩,尤其是实时数据压缩的处理要求。

近年来,机器学习领域经历了爆炸式的发展,一些研究人员使用传统神经网络模型在数据压缩领域获得了较好的效果。将原始图像经由神经网络处理后,仅需存储神经网络权重而无需存储图像本身的信息,从而在不降低图像质量的情况下获得了较高的压缩比。以此为基础,将神经网络与其它压缩技术结合、改进神经网络结构、改进神经网络的训练算法等,进一步推进了神经网络在数据压缩中的应用。但是,神经网络是浅层网络,模型的收敛速度、稳定性、权值更新的有效性等都存在不足,此外,神经网络依赖于有标签的预训练数据,这在实际应用场景中很难满足。

2、基于深度学习的数据压缩

深度学习的引入有效解决了传统方法存在的问题。与传统压缩技术相比,基于深度学习的方法具有下列的天然优势:

由于深度学习的参数是基于大量实际数据推导出来的,而传统的数据压缩编码方法主要是基于先验知识手工构建的,因此深度学习的优良内容自适应性优于基于信号处理的模型。深度学习的方法有效利用了较大的接受域(ReceptiveField),因此不但能利用相邻的信息还可以利用远距离的样本提高编码效率,但传统的编码工具只利用相邻的样本,难以利用远距离的样本。基于深度学习的压缩方法是灵活的,可以根据特定的域特征进一步减少比特率,同时实现快速处理,深度学习的内部表示适合于现代数据处理。

与传统神经网络压缩技术相比,基于深度学习的方法优势在于:(1)基于多层网络结构,深度学习模型具有较好的非线性映射能力,因此能有利于学习到数据(特别是图像)的深层次特征。(2)深度学习模型通过多层学习和权值微调的过程,提高了训练速度,从而能满足大体量数据压缩的要求。(3)更深的学习层次能够更加有效的去除掉冗余数据特征,从而获得更高的压缩比。

到目前为止,随机神经网络(RandomNeuralNetwork)、卷积神经网络(ConvolutionalNeuralNetwork,CNN)、递归神经网络(RecurrentNeuralNetworks,RNN)、生成对抗网络(GenerativeAdversarialNetworks,GAN)、变分自动编码器((Variational)Auto-Encoder,VAE)等都陆续应用到了数据压缩中。本文从近两年重要学术会议的研究成果中选择了基于GAN和VAE的两种深度学习数据压缩技术进行分析与讨论。

1.GAN在有损压缩中的应用

论文标题:Deepgenerativemodelsfordistributionpreservinglossy

1
查看完整版本: 深度学习助力数据压缩,一文读懂相关理论