KenGu翻译
火火酱~,责编
晋兆雨出品
AI科技大本营头图
付费下载于视觉中国*文末有赠书福利不可否认,Transformer-based模型彻底改变了处理非结构化文本数据的游戏规则。截至00年9月,在通用语言理解评估(GeneralLanguageUnderstandingEvaluation,GLUE)基准测试中表现最好的模型全部都是BERTtransformer-based模型。如今,我们常常会遇到这样的情形:我们手中有了表格特征信息和非结构化文本数据,然后发现,如果将这些表格数据应用到模型中的话,可以进一步提高模型性能。因此,我们就着手构建了一个工具包,以方便后来的人可以轻松实现同样的操作。
在Transformer的基础之上进行构建
使用transformer的主要好处是,它可以学习文本之间的长期依赖关系,并且可以并行地进行训练(与sequencetosequence模型相反),这意味着它可以在大量数据上进行预训练。鉴于这些优点,BERT现在成为了许多实际应用程序中的主流模型。同样,借助HuggingFaceTransformer之类的库,可以轻松地在常见NLP问题上构建高性能的transformer模型。目前,使用非结构化文本数据的transformer模型已经为大众所熟知了。然而,在现实生活中,文本数据往往是建立在大量结构化数据或其他非结构化数据(如音频或视觉信息)的基础之上的。其中每一种数据都可能会提供独一无二的信号。我们将这些体验数据(音频、视频或文本)的不同方式称为模态。以电商评论为例。除了评论文本本身之外,还可以通过数字和分类特征来获取卖家、买家以及产品的相关信息。在本文中,我们将一起学习如何将文本和表格数据结合在一起,从而为自己的项目提供更强的信号。首先,我们将从多模态学习领域开始——该领域旨在研究如何在机器学习中处理不同的模态。多模态文献综述
目前的多模态学习模式主要集中在听觉、视觉和文本等感官模态的学习上。在多模态学习中,有多个研究分支。根据卡内基梅隆大学(CarnegieMellonUniversity)MultiComp实验室提出的分类方法,我们要处理的问题属于多模态融合(MultimodalFusion)问题——如何将两种或两种以上的模态信息结合起来进行预测。由于文本数据是我们的主模态,因此我们将重点