[论文笔记][CoRR-2019]TinyBERT: Distilling BERT for Natural Language Understanding

一. Introduction

1. Pre-trained language models (PLMs)

Bert XLNet RoBERTa SpanBERT

2. model compression

quantization weights pruning knowledge distillation (KD)

Distilled BiLSTMSOFT BERT-PKD DistilBERT

二. Method

1. TRANSFORMER DISTILLATION

Problem Formulation

Transformer-layer Distillation

Embedding-layer Distillation

Prediction-Layer Distillation

ALl-Layers Distillation(Conclusion)

2. TINYBERT LEARNING

三. EXPERIMENTS

四. APPENDIX

1. DATA AUGMENTATION DETAILS

paper

0

Tmux简单使用教程

简单理解:不用挂后台,即使shell客户端关闭,命令继续执行。会话和窗口是独立的。

1.安装
# Mac
$ brew install tmux

# Ubuntu 或 Debian
$ sudo apt-get install tmux

# CentOS 或 Fedora
$ sudo yum install tmux
2.启动或退出
# 启动
tmux

# 退出
exit
3.新建会话
# 直接新建,默认编号0,1,...
tmux

# 自定义名称
tmux new -s <session-name>
4.分离对话:不同于退出,这只是分离,后面还可以继续连接
tmux detach #新建bash窗口
5.查看当前所有对话
tmux ls
6.连接对话
# 使用会话编号
$ tmux attach -t 0

# 使用会话名称
$ tmux attach -t <session-name>
7.杀死对话:等同于进入对话后然后exit
# 使用会话编号
$ tmux kill-session -t 0

# 使用会话名称
$ tmux kill-session -t <session-name>
8.切换对话:进入对话后 然后切换
# 使用会话编号
$ tmux switch -t 0

# 使用会话名称
$ tmux switch -t <session-name>

ref:Tmux 使用教程

另外get:防止iTerm/其他客户端不掉线

  • 永久:在/etc/ssh/ssh_config增加ServerAliveInterval 60(每60s向服务器发一次心跳);
  • 暂时:ssh -o ServerAliveInterval=60 hostname@host
0