混合精度和显存计算 发表于 2024-06-17 更新于 2024-07-03 分类于 深度学习 简要介绍了混合精度的概念,以此为基础评估了训练阶段和推理阶段各需要占用多少显存。针对ZeRO技术和KV Cache技术这里只是一笔带过,后续会详细介绍。 阅读全文 »
LLM时代的Normalization 发表于 2024-06-15 更新于 2024-07-02 分类于 LLM 大模型时代随着模型规模的增大,对训练技巧的要求也越来越高,本文从正则化方法和正则化位置两个角度,介绍了LLM时代的正则化手段。 阅读全文 »
常用Normalization 发表于 2024-06-05 更新于 2024-07-21 分类于 深度学习 介绍了Normalization存在的意义,以及主流的四种Normalization手段,包括Batch Normalization,Layer Normalization,Instance Normalization和Group Normalization。这些Normalization手段都是为了让数据的分布变得更好,从而更好地训练模型。 阅读全文 »
常用激活函数 发表于 2024-06-03 更新于 2024-07-02 分类于 深度学习 激活函数在神经网络中扮演着非常重要的角色,因为线性组合无法拟合复杂的映射关系,激活函数的加入赋予神经网络强大的拟合能力。 阅读全文 »
常用损失函数 发表于 2024-06-03 分类于 深度学习 介绍了常用的损失函数,如L1损失,L2损失和交叉熵损失等,主要分为两类,一类是用于回归任务的损失函数,另一类是用于分类任务的损失函数。 阅读全文 »
Transformer详解 发表于 2024-06-01 更新于 2024-08-04 分类于 自然语言处理 较为详细地介绍了Transformer模型架构,包括其内部的Multi Head Attention模块,Position-wise Feed Forward模块和Position Embedding模块。Transformer可以说是LLM的基石,需要重点掌握。 阅读全文 »
Tokenizer基础篇 发表于 2024-06-01 更新于 2024-06-03 分类于 自然语言处理 简要介绍一下主流的三种Tokenizer,包括Byte Pair Encoding,WordPiece和Unigram Language Model。其中Byte Pair Encoding是很多LLM Tokenizer的基础,需要重点掌握。 阅读全文 »