【NAACL-HLT-2018】Slot-Gated Modeling for Joint Slot Filling and Intent Prediction

一、Contributions

However, the prior work did not “explicitly” model the relationships between the intent and slots; instead, it applied a joint loss function to “implicitly” consider both cues. Because the slots often highly depend on the intent, this work focuses on how to model the explicit relationships between slots and intent vectors by introducing a slot-gated mechanism.

之前的joint mode只是描述了意图和槽任务之前晦涩的关系,但是本篇论文描述了二者之间明确的关系(因为槽高度依赖意图)。

二、Models

1. Attention-Based RNN Model

1.1 Slot Filling without gate

其实就是针对每个隐藏状态(前后向拼接)进行self attention,但是在简单的数据集比如AITS上,SF增加attention效果没有太大的提升。

1.2 Intent Prediction

这里的attention不用于上面的,这里更简单,不用每两个隐藏状态进行交互,这里只得到一个最终的attention加权和。

2. Slot-Gated Mechanism

其实就是将ID的attention和SF的attention进行交互(SF不加attention的话就用隐藏状态,见Figure2b)得到g,然后让g作为SF的attention的权重,最终受益的是SF。

3. Joint Optimization

极大似然,梯度上升。

三、Refs

paper/reading1

【CoRR-2017】Multi-Domain Adversarial Learning for Slot Filling in Spoken Language Understanding

一、Contributions

对抗性训练方法,用于学习可以跨多个域共享的共同特征和表示。

二、Models

1.Bi-LSTM Slot Filling Model

BiLSTM的每个时间步的前后向拼接的隐藏状态,然后接入MLP(全连接层),通过softmax得到概率,代价函数为交叉熵函数。

2. Domain Adversarial Learning

2.1 Attention Domain Classifier

简单的self attention, 将每个时间步的隐藏状态(前后向拼接)通过激活函数g得到新的值,然后所有的时间步进行softmax得到权值,最终拿这些权值和对应的隐藏状态(前后向拼接)得到加权和,进行分类。

2.2 Adversarial Training

代价函数交叉熵函数。更新θd最小化域分类的交叉熵损失更新θs生成maximize domain classification confusion的句子表达

3.  Joint Optimization

slot filling阶段:分别预训练domain-specific和domain-general Bi-LSTM,仅在输出层来优化全连接参数。

三、Refs

paper/reading1

【INTERSPEECH-2016】Multi-Domain Joint Semantic Frame Parsing using Bi-directional RNN-LSTM

一、Contributions

  1. 我们提出了RNN-LSTM架构,用于槽填充,意图识别和域分类的联合建模;
  2. 我们建立一个联合的多领域模型,支持多任务深度学习,每个领域的数据相互加强;
  3. 我们研究了在口语理解中对词汇语境进行建模的替代架构

二、Models

三、特点

  • 域、意图和槽的联合

这样就把三个任务合并为一个序列标注任务

  • 多域建模

ATIS,alarm, cal- endar, communication and technical

这种模块化设计方法(即将SLU建模为3个任务)具有灵活性的优点; 可以在不需要改变其他域的情况下实现对域的特定修改(例如,插入,删除)。另一个优点是,在这种方法中,可以使用任务/域特定功能,这通常显着提高这些任务/域特定模型的准确性。此外,这种方法通常在每个域中产生更集中的理解,因为意图确定仅需要在单个(或有限集)域上考虑相对较小的意图和槽类集,并且可以针对特定意图和槽集合优化模型参数。但是,这种方法也有缺点:首先,需要为每个域训练这些模型。这是一个容易出错的过程,需要仔细的工程设计以确保跨域处理的一致性此外,在运行时期间,这种任务流水线操作会导致错误从一个任务转移到以下任务。此外,各个域模型之间没有数据或功能共享,导致数据碎片,而一些语义意图(例如,发现或购买域特定实体)和槽(例如,日期,时间和位置) 实际上可能是许多领域的共同点[2,3]最后,用户可能不知道系统覆盖哪些域以及覆盖的程度,因此该问题导致用户不知道期望什么并因此导致用户不满的交互[4,5]。

四、Refs

paper/reading1/reading2

 

字符串

151. 翻转字符串里的单词

179. 最大数

Collections.sort和Arrays.sort自定义排序/部分排序

【中国计算机学报】深度文本匹配综述

一、基于单语义文档表达的深度学习模型

利用深度学习的方法生成一个文档的高维度稠密向量,得到两个文档的表达之后,通过计算这两个向量之间的相似度便可输出两者的匹配度。

1.基于全连接神经网络(DSSM)

【CIKM-2013】Learning Deep Structured Semantic Models for Web Search using Clickthrough Data

  • 优点:字向量作为输入既可以减少切词的依赖,又可以提高模型的泛化能力;
  • 缺点:采用词袋模型(BOW),因此丧失了语序信息和上下文信息。

2.基于卷积神经网络(CNN-DSSM)

【CKIM-2014】A Latent Semantic Model with Convolutional-Pooling
Structure for Information Retrieval

  • 优点:CNN-DSSM 通过卷积层提取了滑动窗口下的上下文信息,又通过池化层提取了全局的上下文信息,上下文信息得到较为有效的保留;
  • 缺点:由于滑动窗口(卷积核)大小的限制,导致无法捕获间隔较远的上下文信息。

3.基于循环神经网络(LSTM-DSSM)

SEMANTIC MODELLING WITH LONG-SHORT-TERM MEMORY FOR INFORMATION RETRIEVAL

  • 优缺点:LSTM的优缺点

4.小结

  • 优点
    • (1)将文本映射为一个简洁的表达,便于储存;
    • (2)匹配的计算速度快,可以和一些加速方法如位置敏感哈希(locality sensitive hashing,LSH);
    • (3)模型可以用大量无监督的数据进行预训练,尤其是在匹配监督数据很少的时候,用大量文本进行预训练是相当有效的方法。
  • 缺点
    • (1)首先,很多匹配问题不具备传递性(例如问答系统中问题和答案的位置不能互换),因此不适合用一个度量空间(参数相同的神经网络)来描述;
    • (2)其次,文本的表示学习本身是非常困难的问题,只有效捕捉与描述对匹配有用的局部化(细节)信息。

二、基于多语义文档表达的深度学习模型

综合考虑文本的局部性表达(词,短语等)和全局性表达(句子).这类模型不仅会考虑两段文本最终的表达向量的相似程度,也会生成局部的短语或者更长的短语的表达进行匹配.这样多粒度的匹配可以很好地补充基于单语义文档表达的深度学习模型在压缩整个句子过程中的信息损失,而达到更好的效果。

1.可伸展递归自动编码器(uRAE)

【NIPS-2011】Dynamic Pooling and Unfolding Recursive Autoencoders for Paraphrase Detection

2.多粒度卷积神经网络(MultiGranCNN)

【ACL-2015】MultiGranCNN: An Architecture for General Matching of Text Chunks on Multiple Levels of Granularity

3.多视角循环神经网络(MV-LSTM)

【AAAI-2016】A Deep Architecture for Semantic Matching with Multiple Positional Sentence Representations

  • 优点:Bi-LSTM使得每个句子都可以看做是由不同中心词产生的多个视角表达的集合,解决了LSTM存在位置偏见,会倾向于离当前位置之前较近的单词。

4.小结

  • 优点
    • (1)细粒度的表达带来了更丰富的信息;
    • (2)可以进行大量无监督的预训练,解决数据量少的问题。
  • 缺点
    • (1)可伸展循环自动编码器模型依赖于 一个给定的句法树,而句法树算法自身准确性不高,因此算法鲁棒性不足;
    • (2)无法区分不同上下文中局部化信息的重要性,在语言多义的挑战下,很难将局部化信息与全局化信息进行有效地整合利用;
    • (3)匹配不仅仅是一元的一一对应,而且是有层次、 有结构的,分别从两个对象单独提取特征,很难捕获匹配中的结构信息。

三、直接建模匹配模式的深度学习模型

区别以关注文本表达(局部化或者全局化)为核心的思路,直接建模匹配模式的深度学习模型旨在直接捕获匹配的特征:匹配的程度和匹配的结构.这样更接近匹配问题的本质,也更加契合人们面对两段文本进行匹配分析的方法.当进行两段文本的匹配时,我们会先看是不是有匹配的关键词,然后再看关键词之间的相对位置是不是匹配的,最后整合整个句子的意思给两段文本匹配的程度进行打分.实验显示这些模型能在相对复杂的问题上表现更为优秀。

1.主题深度匹配模型(DeepMatch)

【NIPS-2013】A Deep Architecture for Matching Short Texts

  • 缺点:采用词袋,忽略了词在句子中的顺序,DSSM亦如此。

2.树深度匹配模型(DeepMatch tree)

【IJCAI-2015】Syntax-based Deep Matching of Short Texts

3.卷积网络深度匹配模型(ARC-II)

【NIPS-2014】Convolutional Neural Network Architectures for Matching Natural Language Sentences

  • 优点:型考虑了句子中词的顺序,从而可以对两个句子的匹配关系进行相对完整的描述;
  • 缺点:还缺乏对于细微匹配关系的捕捉。

4.MatchPyramid

【AAAI-2016】Text Matching as Image Recognition

  • 特点:第1层卷积中学到类似于n-gram和n-term的匹配层面的特征,而后的卷积层将底层的n-gram和n-term信号进行组合,最终经过全连接得到句子之间的相似度.已经能够达到十分好的效果。

5.Match-SRNN

【IJCAI-2016】Match-SRNN: Modeling the RecursiveMatching Structure with Spatial RNN

  • 特点:实验表明,对于结构性明显的数据,例如自动问答数据,该模型有明显的提升。

6.小结

  • 优点:从模型的输入开始两段文本就进行了交互,得到细粒度的匹配信息,这样的好处在于保持细粒度的匹配信息,避免在一段文本抽象成一个表达时,细节的匹配信息丢失;
  • 缺点:
    • (1)需要大量的有监督的文本匹配的数据训练,没法通过无监督的文本进行预训练;
    • (2)预测的时候资源消耗较大,每一对文档都得完全通过一遍网络,没法像基于单
      语义文档表达或者多语义文档表达的模型可以离线计算好每个文本的特征,预测的时候直接利用算好的特征,并增量地计算新来的文本.因此这类模型一般都是用于类似问答系统、翻译模型、对话系统这种语义匹配程度高、句式变化复杂的任务中。

四、Refs

深度文本匹配综述

DSSM算法-计算文本相似度