Problem거대한 사전학습 모델을 다양한 태스크에 활용하는 방법으로 finetuning이 널리 활용되나 이는 비효율적(parameter inefficient) Solutionadapter 제안태스크마다 학습가능한 파라미터(=a few trainable parameters, adapter)를 BERT의 Transformer layer마다 추가