[论文笔记][中国计算机学报]深度文本匹配综述

一、基于单语义文档表达的深度学习模型

利用深度学习的方法生成一个文档的高维度稠密向量,得到两个文档的表达之后,通过计算这两个向量之间的相似度便可输出两者的匹配度。

1.基于全连接神经网络(DSSM)

【CIKM-2013】Learning Deep Structured Semantic Models for Web Search using Clickthrough Data

  • 优点:字向量作为输入既可以减少切词的依赖,又可以提高模型的泛化能力;
  • 缺点:采用词袋模型(BOW),因此丧失了语序信息和上下文信息。

2.基于卷积神经网络(CNN-DSSM)

【CKIM-2014】A Latent Semantic Model with Convolutional-Pooling
Structure for Information Retrieval

  • 优点:CNN-DSSM 通过卷积层提取了滑动窗口下的上下文信息,又通过池化层提取了全局的上下文信息,上下文信息得到较为有效的保留;
  • 缺点:由于滑动窗口(卷积核)大小的限制,导致无法捕获间隔较远的上下文信息。

3.基于循环神经网络(LSTM-DSSM)

SEMANTIC MODELLING WITH LONG-SHORT-TERM MEMORY FOR INFORMATION RETRIEVAL

  • 优缺点:LSTM的优缺点

4.小结

  • 优点
    • (1)将文本映射为一个简洁的表达,便于储存;
    • (2)匹配的计算速度快,可以和一些加速方法如位置敏感哈希(locality sensitive hashing,LSH);
    • (3)模型可以用大量无监督的数据进行预训练,尤其是在匹配监督数据很少的时候,用大量文本进行预训练是相当有效的方法。
  • 缺点
    • (1)首先,很多匹配问题不具备传递性(例如问答系统中问题和答案的位置不能互换),因此不适合用一个度量空间(参数相同的神经网络)来描述;
    • (2)其次,文本的表示学习本身是非常困难的问题,只有效捕捉与描述对匹配有用的局部化(细节)信息。

二、基于多语义文档表达的深度学习模型

综合考虑文本的局部性表达(词,短语等)和全局性表达(句子).这类模型不仅会考虑两段文本最终的表达向量的相似程度,也会生成局部的短语或者更长的短语的表达进行匹配.这样多粒度的匹配可以很好地补充基于单语义文档表达的深度学习模型在压缩整个句子过程中的信息损失,而达到更好的效果。

1.可伸展递归自动编码器(uRAE)

【NIPS-2011】Dynamic Pooling and Unfolding Recursive Autoencoders for Paraphrase Detection

2.多粒度卷积神经网络(MultiGranCNN)

【ACL-2015】MultiGranCNN: An Architecture for General Matching of Text Chunks on Multiple Levels of Granularity

3.多视角循环神经网络(MV-LSTM)

【AAAI-2016】A Deep Architecture for Semantic Matching with Multiple Positional Sentence Representations

  • 优点:Bi-LSTM使得每个句子都可以看做是由不同中心词产生的多个视角表达的集合,解决了LSTM存在位置偏见,会倾向于离当前位置之前较近的单词。

4.小结

  • 优点
    • (1)细粒度的表达带来了更丰富的信息;
    • (2)可以进行大量无监督的预训练,解决数据量少的问题。
  • 缺点
    • (1)可伸展循环自动编码器模型依赖于 一个给定的句法树,而句法树算法自身准确性不高,因此算法鲁棒性不足;
    • (2)无法区分不同上下文中局部化信息的重要性,在语言多义的挑战下,很难将局部化信息与全局化信息进行有效地整合利用;
    • (3)匹配不仅仅是一元的一一对应,而且是有层次、 有结构的,分别从两个对象单独提取特征,很难捕获匹配中的结构信息。

三、直接建模匹配模式的深度学习模型

区别以关注文本表达(局部化或者全局化)为核心的思路,直接建模匹配模式的深度学习模型旨在直接捕获匹配的特征:匹配的程度和匹配的结构.这样更接近匹配问题的本质,也更加契合人们面对两段文本进行匹配分析的方法.当进行两段文本的匹配时,我们会先看是不是有匹配的关键词,然后再看关键词之间的相对位置是不是匹配的,最后整合整个句子的意思给两段文本匹配的程度进行打分.实验显示这些模型能在相对复杂的问题上表现更为优秀。

1.主题深度匹配模型(DeepMatch)

【NIPS-2013】A Deep Architecture for Matching Short Texts

  • 缺点:采用词袋,忽略了词在句子中的顺序,DSSM亦如此。

2.树深度匹配模型(DeepMatch tree)

【IJCAI-2015】Syntax-based Deep Matching of Short Texts

3.卷积网络深度匹配模型(ARC-II)

【NIPS-2014】Convolutional Neural Network Architectures for Matching Natural Language Sentences

  • 优点:型考虑了句子中词的顺序,从而可以对两个句子的匹配关系进行相对完整的描述;
  • 缺点:还缺乏对于细微匹配关系的捕捉。

4.MatchPyramid

【AAAI-2016】Text Matching as Image Recognition

  • 特点:第1层卷积中学到类似于n-gram和n-term的匹配层面的特征,而后的卷积层将底层的n-gram和n-term信号进行组合,最终经过全连接得到句子之间的相似度.已经能够达到十分好的效果。

5.Match-SRNN

【IJCAI-2016】Match-SRNN: Modeling the RecursiveMatching Structure with Spatial RNN

  • 特点:实验表明,对于结构性明显的数据,例如自动问答数据,该模型有明显的提升。

6.小结

  • 优点:从模型的输入开始两段文本就进行了交互,得到细粒度的匹配信息,这样的好处在于保持细粒度的匹配信息,避免在一段文本抽象成一个表达时,细节的匹配信息丢失;
  • 缺点:
    • (1)需要大量的有监督的文本匹配的数据训练,没法通过无监督的文本进行预训练;
    • (2)预测的时候资源消耗较大,每一对文档都得完全通过一遍网络,没法像基于单
      语义文档表达或者多语义文档表达的模型可以离线计算好每个文本的特征,预测的时候直接利用算好的特征,并增量地计算新来的文本.因此这类模型一般都是用于类似问答系统、翻译模型、对话系统这种语义匹配程度高、句式变化复杂的任务中。

四、Refs

深度文本匹配综述

DSSM算法-计算文本相似度

0