Questions
- 메모리는 대부분 activation gradient가 차지. (not from parameters)
- gradient checkpointing을 사용하면, 평균 18MB/seq의 gradient를 감소시킬 수 있음.
- gradient checkpointing은 중요, parameter를 과하게 줄이는 것은 이점이 작음.
When fine-tuning LLM with LoRA, most of the memory footprint comes from activation gradients, not from the parameters. For example, LoRA has 567MB of memory footprint, while only 26MB comes from LoRA parameters. Therefore, reducing the memory f2ootprint is important, and to raise the performance, more adapters can be utilized without a big increment on the memory footprint.
- NF4를 사용하면 [-1.0, -0.6961928009986877, -0.5250730514526367, -0.39491748809814453, -0.28444138169288635, -0.18477343022823334, -0.09105003625154495, 0.0, 0.07958029955625534, 0.16093020141124725, 0.24611230194568634, 0.33791524171829224, 0.44070982933044434, 0.5626170039176941, 0.7229568362236023, 1.0]의 16개의 구간에 구간별로 동일한 개수의 weight assign?
- 그렇다면 FP4는 어떤 방식?
- 에서 i의 range는?
- For the parameter update, entails the calculation of .
- E(error)가 fine-tuning의 loss를 뜻하는 건지?
- 왜 를 포함하는건지?
- MMLU benchmark(Table 5)
- fine-tunng을 한건데 성능이 늘어야하는 거 아닌가?