大模型100问

  1. 讲一下KV cache,GQA的思想是什么? ## 字节
  2. 讲一下FlashAttention的思想和做法?
  3. 了解过哪些模型训练推理优化的方法(Deepspeed、数据并行、张量并行、流水线并行)