混合精度和显存计算

发表于 2024-06-17 更新于 2024-07-03 分类于深度学习

简要介绍了混合精度的概念，以此为基础评估了训练阶段和推理阶段各需要占用多少显存。针对ZeRO技术和KV Cache技术这里只是一笔带过，后续会详细介绍。

阅读全文 »

LLM时代的Normalization

发表于 2024-06-15 更新于 2024-07-02 分类于 LLM

大模型时代随着模型规模的增大，对训练技巧的要求也越来越高，本文从正则化方法和正则化位置两个角度，介绍了LLM时代的正则化手段。

阅读全文 »

常用Normalization

发表于 2024-06-05 更新于 2024-07-21 分类于深度学习

介绍了Normalization存在的意义，以及主流的四种Normalization手段，包括Batch Normalization，Layer Normalization，Instance Normalization和Group Normalization。这些Normalization手段都是为了让数据的分布变得更好，从而更好地训练模型。

阅读全文 »

常用激活函数

发表于 2024-06-03 更新于 2024-07-02 分类于深度学习

激活函数在神经网络中扮演着非常重要的角色，因为线性组合无法拟合复杂的映射关系，激活函数的加入赋予神经网络强大的拟合能力。

阅读全文 »

常用损失函数

发表于 2024-06-03 分类于深度学习

介绍了常用的损失函数，如L1损失，L2损失和交叉熵损失等，主要分为两类，一类是用于回归任务的损失函数，另一类是用于分类任务的损失函数。

阅读全文 »

常用优化器

发表于 2024-06-03 更新于 2024-06-04 分类于深度学习

在模型训练过程中，优化器负责更新模型参数，选择合适的优化器对模型的效果起到至关重要的作用。

阅读全文 »

Transformer详解

发表于 2024-06-01 更新于 2024-08-04 分类于自然语言处理

较为详细地介绍了Transformer模型架构，包括其内部的Multi Head Attention模块，Position-wise Feed Forward模块和Position Embedding模块。Transformer可以说是LLM的基石，需要重点掌握。

阅读全文 »

Tokenizer基础篇

发表于 2024-06-01 更新于 2024-06-03 分类于自然语言处理

简要介绍一下主流的三种Tokenizer，包括Byte Pair Encoding，WordPiece和Unigram Language Model。其中Byte Pair Encoding是很多LLM Tokenizer的基础，需要重点掌握。

阅读全文 »