sentence embedding

一. 常见

  • 预训练的词向量直接平均(word2vec、Glove、FastText)
  • 预训练的词向量加权平均 (权重可以用TF-IDF)
  • RNN/LSTM最后一个隐状态(例如Laser的encoder部分。与任务相关,在新任务中需要重新训练,无法并行开销大)
  • CNN取隐藏状态(整合不同大小的 n-gram 特征作为整个句子的表示,优点在于提取局部特征)

二. 参考