使用WordEmbedding构造简洁 - 数据 - Powered by Discuz!NT Archiver

TUhjnbcbe - 2021/6/18 12:36:00

文本摘要是在信息泛滥的时代非常重要的工具，可以帮助用户快速判断文章内容主旨，并以此决定是否值得细看文章内容。

本文介绍下我们在年底年初时，使用WordEmbedding思想来构造文本摘要的一些思路，其中包括一种异常简单的文本摘要实现思路，实验效果证明这种方法虽然简单，可能比传统的TFIDF方法还要简单，但是效果与比较复杂的方法是相当的。

这里介绍我们做的其中两种方法，一种是非常简单的根据字WordEmbedding直接叠加方式做摘要系统，另外一种是对HITS经过WordEmbedding改造的文本摘要思路。

基于字WordEmbedding叠加的简洁文本摘要系统

首先，我们可以使用Word2Vec等工具获得汉字的WordEmbedding。然后对于某个文档进行分句，对于每个句子使用单字的WordEmbedding直接累加获得句子的WordEmbedding表示；

然后，把每个句子的WordEmbedding直接累加获得整个文档的WordEmbedding。如图1所示，这样文档和句子都以WordEmbedding的低维度向量来表示，这个向量分别代表了文档和句子的语义信息。

图1.根据句子wordEmbedding获得文档WordEmbedding

接着，我们开始摘要句子抽取过程，其基本思路是非常简单的：哪些句子在语义上与文档整体语义更相似，那么就选哪些句子作为摘要句。

图2.摘要计算流程

具体实现流程如图2所示。就是直接用每个句子的语义向量和文档整体语义向量来通过Cosine距离计算两者之间的距离，分值越大，说明这个句子在语义上越和文档整体语义越匹配，那么就越有代表性。当每个句子都算出和文档整体语义的语义相似性得分后，根据得分由高到低排序，并按需要输出一定数量的句子作为文档的摘要。

怎么样，这个思路和具体实现是相当的简单吧，应该与最简单的TFIDF做摘要的思路相当甚至还要更简单些。

利用HITS用WordEmbedding进行改造的摘要系统

HITS是目前做摘要的所有方法里面，除了监督学习方法外，效果最能够代表主流成果的方法了。其思路是把句子之间的关系转换为图结构，然后在图结构上使用PageRank或者HITS等图挖掘算法，然后通过迭代运算找到权重最高的句子，并按照权重高低输出句子作为摘要。

图3.句子图

图3是把一篇包含5个句子的文档转换为图结构的示意图。每个句子是图中的一个节点，节点之间的边代表句子之间的语义相似性，用权值大小来表示，传统的方法是采用两个句子的TFIDF相似性来计算相似度，构造好图结构后，按照HITS算法思路迭代计算，最后每个节点会有最后的得分，按照得分高低输出句子即可。

我们对HITS的改造体现在如何计算两个句子节点形成的边上，传统方法是采用TFIDF方法，我们考虑用两个句子的WordEmbedding计算两个句子的相似性，就是同样用字的WordEmbedding叠加形成句子的WordEmbedding，然后通过Cosine距离来作为边的权值。改进思路也比较简单。这种改进的核心思想是：传统TFIDF计算句子相似性的时候，并不是语义级别的计算，而是字面的计算，但是如果采用WordEmbedding，那么假设两个句子分别出现“计算机”和“电脑”，按照TFIDF是没有相似性得分的，但是按照WordEmbedding是能够体现这种字面不匹配但是语义匹配的情况的。也即是这是语义级别的相似性计算。

实验效果

我们使用的测试数据是哈工大的中文文本摘要数据集，根据这个数据集合，分别针对上文提出的基于字WordEmbedding叠加的方式构造的文本摘要系统以及针对HITS提出的改进模型做了实验，实验结果如下：

表1.基于字向量叠加的文本摘要系统（段首句段尾句加大权重）

表2.基于HITS语义改造模型的文本摘要系统

由此可见，尽管字向量叠加的文本摘要方式实现思路非常简单，但是与目前较好的HITS类方法比效果也还是不错的。对于HITS来说，经过语义改造的方法与TFIDF计算边的方法相比，效果并没有明显提升，效果基本相当，这个我也没想明白是什么原因，因为按照简单思考，这种方式看上去应该比TFIDF效果好才对。

我们与现有发表论文中使用了同一测试集合的文摘工作进行了对比，具体而言，参考的是谢浩在论文“基于段落-句子互增强的自动文摘算法”中的实验数据，在论文中，提到了使用LexRank这一目前标准对比方法以及谢浩提出的改进的句子-段落增强的方法。两种方法的实验数据如下：

其中LexRank实验结果如下表：

表3基于LexRank的自动文摘摘要结果统计表

另外一种提出改进的句子-段落增强的方法实验结果统计如下表：

表4基于句子-段落增强方法文摘摘要结果统计表

从对比实验可以看出，虽然这种实现起来非常简单的文本摘要系统思路简洁，但是在效果方面比起目前State-of-art的实现相对较复杂的LexRank或者HITS类思路来说，效果基本相当，但是因为其实现方法简单，甚至比最简单的传统的TFIDF类摘要实现起来还要方便，所以是一种非常具备实用价值的文本摘要工具。

致谢：感谢畅捷通公司智能平台黄通文、薛会萍等同事在这方面的工作。

预览时标签不可点收录于话题#个上一篇下一篇

数据结构论坛