简要介绍了混合精度的概念,以此为基础评估了训练阶段和推理阶段各需要占用多少显存。针对ZeRO技术和KV Cache技术这里只是一笔带过,后续会详细介绍。
阅读全文 »

大模型时代随着模型规模的增大,对训练技巧的要求也越来越高,本文从正则化方法和正则化位置两个角度,介绍了LLM时代的正则化手段。
阅读全文 »

介绍了Normalization存在的意义,以及主流的四种Normalization手段,包括Batch Normalization,Layer Normalization,Instance Normalization和Group Normalization。这些Normalization手段都是为了让数据的分布变得更好,从而更好地训练模型。
阅读全文 »

激活函数在神经网络中扮演着非常重要的角色,因为线性组合无法拟合复杂的映射关系,激活函数的加入赋予神经网络强大的拟合能力。
阅读全文 »

介绍了常用的损失函数,如L1损失,L2损失和交叉熵损失等,主要分为两类,一类是用于回归任务的损失函数,另一类是用于分类任务的损失函数。
阅读全文 »

在模型训练过程中,优化器负责更新模型参数,选择合适的优化器对模型的效果起到至关重要的作用。
阅读全文 »

较为详细地介绍了Transformer模型架构,包括其内部的Multi Head Attention模块,Position-wise Feed Forward模块和Position Embedding模块。Transformer可以说是LLM的基石,需要重点掌握。
阅读全文 »

简要介绍一下主流的三种Tokenizer,包括Byte Pair Encoding,WordPiece和Unigram Language Model。其中Byte Pair Encoding是很多LLM Tokenizer的基础,需要重点掌握。
阅读全文 »