[ABCNN]ABCNN: Attention-Based Convolutional Neural Network for Modeling Sentence Pairs

一.Architecture

origin CNN without attention

ABCNN-1

ABCNN-1是在输入层之后,卷积层之前添加注意力矩阵A,A用来定义两个句子之间词的关系(具体公式看论文)

ABCNN-2

ABCNN-2 是在卷积层之后,池化层之前添加注意力矩阵A(具体公式看论文)

ABCNN-3

ABCNN-3是ABCNN-1和ABCNN-2的结合,卷积层和池化层都添加了attention机制

二. Reference

 

[DeepMatch]A Deep Architecture for Matching Short Texts

Architecture

Model explanation

  • 先用(Q, A)语料训练 LDA 主题模型,得到其 topic words,这些主题词被用来检测两个文本是否有共现词,例如,若文本 X 和文本 Y 都可以归类到某些主题词,则意味着它们可能存在语义相关性。而词抽象层次则体现在,每次指定不同的 topic 个数,训练一个 LDA 模型,最终会得到几个不同分辨率的主题模型,高分辨率模型的 topic words 通常更具体,低分辨率模型的 topic words 则相对抽象。
  • 不同抽象层级的 topic words 可以构造出一系列 patches,两个文本 X, Y 在某 patch 上的共现关系构成那个抽象层次的 local decision
  • 上图左侧 Input 部分,不同的颜色代表不同的 topic 抽象层级

Loss function

paper

[CNN-DSSM/CLSM]A Latent Semantic Modelwith Convolutional-Pooling Structure for Information Retrieval

CLSM uses a fixed size sliding window to capture local context information, and a max pooling layer to capture global context information.

Architecture

Letter-trigram based Word-n-gramRepresentation

word hashing和DSSM的有些不同

letter-trigram layer:30k*3=90k, word hashing之后每个单词的纬度为30k,然后3-gram拼接为90k

Loss Function

paper