本篇博客是对苏神博客的一个学习笔记,主要学习了绝对位置编码、相对位置编码和融合了两种位置编码的RoPE位置编码。RoPE在LLM中非常重要,需要重点掌握。
阅读全文 »

本文是对网易有道开源的RAG框架QAnything的一个学习笔记,感谢QAnything框架让更多人可以接触到RAG应用。QAnything整体采用了两阶段检索的方案,实现了知识库越大,RAG效果越好的愿景,是非常值得学习的RAG框架。
阅读全文 »

FlashAttention和PagedAttention是目前主流的两种LLM加速推理算法,了解两者的工作原理有助于更深入地理解LLM。同时,FlashAttention和PagedAttention是两个主流推理加速框架FlashAttention和vLLM的核心算法,了解两者的原理可以帮助更好地使用vLLM和FlashAttention。
阅读全文 »

目前开源的大语言模型百花齐放,本文从模型体系角度对开源大模型做了划分,同时介绍了代表性的大模型工作。
阅读全文 »

命名实体识别是最常见的自然语言处理任务之一,在工业界具有广泛应用。我们不仅需要了解基础的HMM和CRF,还需要对NER的技术方案有深入的了解。
阅读全文 »

随着越来越多的大模型出现,如何有效地评估这些模型的性能非常重要,本文介绍了大模型评测的一些基础知识。
阅读全文 »

介绍了主流的Attention机制,包括Multi-Head Attention,Multi-Query Attention,Grouped-Query Attention和Multi-head Latent Attention。
阅读全文 »

简要介绍了四种主流的PEFT技术,包括Adapter Tuning,Prefix Tuning,Prompt Tuning和LoRA,这些技术降低了LLM的训练门槛,让普通人也能微调大模型。
阅读全文 »