Transformer

一、概述

上图的左半边用 NX 框出来的,就代表一层 encoder,其中论文里面的 encoder 一共有6层这样的结构。上图的右半边用 NX 框出来的,则代表一层 decoder,同样也有6层。

二、流程

定义输入序列首先经过 word embedding,再和 positional encoding 相加后,输入到 encoder 中。输出序列经过的处理和输入序列一样,然后输入到 decoder。

最后,decoder 的输出经过一个线性层,再接 Softmax。

三、实现和参考

【EMNLP-2018】Zero-shot User Intent Detection via Capsule Neural Networks

一、Contributions

  • 将胶囊神经网络运用到文本模型中,通过从语句中以层次方式提取和聚合语义
  • 提出了一种用于zero-shot意图识别基于胶囊的模型
  • 展示并解释了该模型在两个真实数据集上的表现

二、Model

1. SemanticCaps

双向LSTM隐藏状态的拼接,另外加上multi-head self-attention(加多头的好处是每个头都能关注一句话中特定的语义特征),但感觉这也不是多头呀,多头是每个时间步的隐藏状态对应多个头,这就感觉是普通的self-attention。

2. DetectionCaps

胶囊神经网络来一套,损失函数最大间隔增加了正则,对self-attention的权重矩阵A。

3. Zero-shot DetectionCaps

3.1 Knowledge Transfer Strategies

  • existing and emerging intents 二者存在相似性
  • “The intent labels also contain knowledge of how two intents are similar with each other”

3.2 Build Vote Vectors

3.3 Zero-shot Dynamic Routing

更换prediction vector(利用vote vector和相似度)

三、Experiment

四、Refs

paper/reading1/