#deepLearning/softmax

Read more »

Chapter 3 - 1. 了解 transformers llm 不同输入和输出的区别?以及看看不同的 output 可以有什么用?2. 了解 RMSNorm 和 layernorm 的区别3.了解 KV cache 的原理,以及在推理的时候怎么使用?

Read more »

Why use "return_tensors="?

Read more »