LLM 大语言模型详解:从 Transformer 到应用

返回

LLM(Large Language Model,大语言模型)是当前 AI 技术的核心。本文从原理到应用,系统讲解 LLM 的方方面面,数据更新至 2026 年 3 月

一、什么是 LLM?

1.1 一个比喻理解 LLM

LLM = 读过几乎所有书的超级学霸

┌─────────────────────────────────────────────────────────────────┐
│                    LLM 是什么?                                  │
├─────────────────────────────────────────────────────────────────┤
│                                                                 │
│  传统程序 = 计算器                                               │
│  ━━━━━━━━━━━━━━━━                                               │
│  • 你输入 2+2,它输出 4                                          │
│  • 规则是程序员写死的,不会变                                     │
│  • 只能做预设的事情                                              │
│                                                                 │
│  LLM = 读过几乎所有书的学霸                                       │
│  ━━━━━━━━━━━━━━━━━━━━                                           │
│  • 读过互联网上几乎所有的文本                                     │
│  • 你问问题,它根据读过的内容组织答案                            │
│  • 不是"查数据库",而是"理解后生成"                              │
│  • 能回答没学过的问题(举一反三)                                │
│                                                                 │
└─────────────────────────────────────────────────────────────────┘

1.2 LLM vs 传统 AI

对比项传统 AILLM
训练方式一个任务一个模型一个模型多个任务
数据需求需要大量标注数据预训练无需标注
泛化能力换场景就失效可迁移到新场景
例子情感分析、翻译模型GPT-4o、Claude 3.5

1.3 LLM 能做什么?

┌─────────────────────────────────────────────────────────────────┐
│                    LLM 能力图谱                                  │
├─────────────────────────────────────────────────────────────────┤
│                                                                 │
│  💬 对话交流                                                     │
│     • 聊天、问答、心理咨询                                       │
│     • 多轮对话,记住上下文                                       │
│                                                                 │
│  ✍️ 内容创作                                                     │
│     • 写文章、写邮件、写报告                                     │
│     • 写代码、写诗、写剧本                                       │
│                                                                 │
│  📚 知识服务                                                     │
│     • 总结文档、提取要点                                         │
│     • 翻译、改写、润色                                           │
│                                                                 │
│  🔍 分析推理                                                     │
│     • 数据分析、趋势预测                                         │
│     • 逻辑推理、问题诊断                                         │
│                                                                 │
│  🎨 多模态(2025-2026 新能力)                                    │
│     • 理解图片、图表                                             │
│     • 生成图片、音频                                             │
│                                                                 │
└─────────────────────────────────────────────────────────────────┘

二、Transformer 架构详解

2.1 为什么是 Transformer?

2017 年 Google 论文《Attention Is All You Need》

用一个比喻理解:

┌─────────────────────────────────────────────────────────────────┐
│                    阅读理解的进化                                │
├─────────────────────────────────────────────────────────────────┤
│                                                                 │
│  RNN/LSTM(2017 年前)= 逐字阅读                                 │
│  ━━━━━━━━━━━━━━━━━━━━                                           │
│  "今 天 天 气 不 错,我 想 去 公 园"                               │
│   ↑   ↑   ↑   ↑   ↑   ↑   ↑   ↑   ↑   ↑                        │
│   按顺序读,读到后面忘记前面                                     │
│   长句子效果差                                                   │
│                                                                 │
│  Transformer(2017 年后)= 一眼扫完全句                           │
│  ━━━━━━━━━━━━━━━━━━━━                                           │
│  "今天天气不错,我想去公园"                                       │
│   └───────────┬───────────┘                                     │
│               │                                                 │
│          同时关注所有词                                         │
│          理解"我"和"去公园"的关系                                │
│          长句子也能理解                                         │
│                                                                 │
└─────────────────────────────────────────────────────────────────┘

2.2 Self-Attention 机制(核心!)

这是 Transformer 最核心的创新!

┌─────────────────────────────────────────────────────────────────┐
│              Self-Attention 如何工作?                           │
├─────────────────────────────────────────────────────────────────┤
│                                                                 │
│  句子:"猫坐在垫子上,因为它很舒服"                               │
│                                                                 │
│  问题:"它"指的是什么?                                          │
│                                                                 │
│  Self-Attention 的思考过程:                                     │
│  ━━━━━━━━━━━━━━━━━━━━                                           │
│                                                                 │
│  "它" 需要找指代对象:                                           │
│                                                                 │
│       猫        坐       垫子       上        因为      它        │
│       │         │         │         │         │        │        │
│       └────┐    │    ┌────┘         │         │        │        │
│            │    │    │              │         │        │        │
│            ▼    ▼    ▼              ▼         ▼        ▼        │
│         [0.2] [0.1] [0.7]         [0.1]     [0.1]    [1.0]     │
│                                                                 │
│  注意力权重:                                                    │
│  "它" → "垫子" (0.7)  ← 最相关!                                 │
│  "它" → "猫" (0.2)                                              │
│  "它" → "舒服" (0.1)                                            │
│                                                                 │
│  结论:"它"指的是"垫子"                                          │
│                                                                 │
└─────────────────────────────────────────────────────────────────┘

通俗解释:

  • 每个词都会”注意”句子里的其他词
  • 重要的词给予更多关注(权重高)
  • 这样就能理解词语之间的关系

2.3 Transformer 结构图(简化版)

┌──────────────────────────────────────────────────────────────────┐
│                    Transformer 架构                               │
│                                                                  │
│  输入:"今天天气不错"                                             │
│           │                                                      │
│           ▼                                                      │
│  ┌─────────────────┐                                             │
│  │   Embedding     │  把词变成向量                                │
│  │                 │  "今天" → [0.1, -0.5, 0.8, ...]             │
│  └────────┬────────┘                                             │
│           │                                                      │
│           ▼                                                      │
│  ┌─────────────────┐                                             │
│  │  Position       │  加上位置信息                               │
│  │  Encoding       │  让模型知道词的顺序                          │
│  └────────┬────────┘                                             │
│           │                                                      │
│           ▼                                                      │
│  ┌─────────────────┐     ┌─────────────────┐                    │
│  │   Multi-Head    │     │   Multi-Head    │                    │
│  │   Attention     │     │   Attention     │                    │
│  │   (×12 层)       │     │   (×12 层)       │                    │
│  │   理解词的关系   │ ──▶ │   生成新内容     │                    │
│  │   (Encoder)     │     │   (Decoder)     │                    │
│  └─────────────────┘     └─────────────────┘                    │
│           │                       │                              │
│           ▼                       ▼                              │
│  ┌─────────────────┐     ┌─────────────────┐                    │
│  │   理解输入      │     │   生成输出       │                    │
│  └─────────────────┘     └────────┬────────┘                    │
│                                   │                              │
│                                   ▼                              │
│                          输出:"适合出门散步"                      │
│                                                                  │
└──────────────────────────────────────────────────────────────────┘

2.4 Encoder vs Decoder

架构特点代表模型适用场景
Encoder-only只编码,擅长理解BERT文本分类、情感分析
Decoder-only只解码,擅长生成GPT 系列文本生成、对话
Encoder-Decoder先理解再生成T5、BART翻译、摘要

2026 年主流模型都用 Decoder-only 架构(如 GPT-4o、Claude 3.5)


三、LLM 训练流程

3.1 训练三阶段

┌─────────────────────────────────────────────────────────────────┐
│                    LLM 训练流程                                  │
├─────────────────────────────────────────────────────────────────┤
│                                                                 │
│  阶段 1:预训练(Pre-training)                                  │
│  ━━━━━━━━━━━━━━━━━━━━━━━━━                                      │
│  📚 读万卷书                                                     │
│                                                                 │
│  • 数据:互联网文本(网页、书籍、代码、论文等)                   │
│  • 任务:预测下一个词                                            │
│  • 成本:数千万到上亿美元                                        │
│  • 时间:数周到数月                                              │
│  • 结果:基础模型(Base Model)                                  │
│                                                                 │
│  例子:                                                         │
│  输入:"今天天气不错,我想去"                                    │
│  模型猜测:"公园" ✓ / "吃饭" ✗                                  │
│  猜对了→奖励,猜错了→调整参数                                   │
│  重复万亿次...                                                  │
│                                                                 │
│  阶段 2:监督微调(SFT)                                         │
│  ━━━━━━━━━━━━━━━━━━━━━                                          │
│  🎓 学习如何听话                                                 │
│                                                                 │
│  • 数据:高质量指令 - 回答对(10 万 -100 万条)                    │
│  • 任务:学习遵循指令                                            │
│  • 成本:相对较低                                                │
│  • 结果:指令微调模型(Instruction Model)                       │
│                                                                 │
│  例子:                                                         │
│  指令:"请总结这篇文章"                                          │
│  文章:[长文本]                                                  │
│  期望:[简洁的总结]                                              │
│                                                                 │
│  阶段 3:人类对齐(RLHF)                                        │
│  ━━━━━━━━━━━━━━━━━━━━━━                                         │
│  🏆 学习人类偏好                                                 │
│                                                                 │
│  • 数据:人类对多个回答的评分                                    │
│  • 任务:学习人类喜欢什么样的回答                                │
│  • 成本:中等                                                    │
│  • 结果:对齐模型(Aligned Model)                               │
│                                                                 │
│  例子:                                                         │
│  问题:"如何制作炸弹?"                                          │
│  回答 A:详细步骤(危险!)→ 人类评分:1 分                       │
│  回答 B:拒绝并提供帮助 → 人类评分:5 分                          │
│  模型学习:选择回答 B 的类型                                     │
│                                                                 │
└─────────────────────────────────────────────────────────────────┘

3.2 预训练:预测下一个 Token

核心思想(通俗版):

┌─────────────────────────────────────────────────────────────────┐
│              预训练 = 完形填空游戏                                │
├─────────────────────────────────────────────────────────────────┤
│                                                                 │
│  训练数据(互联网文本):                                         │
│  "中国的首都是北京,上海是最大的城市。"                           │
│                                                                 │
│  遮住最后一个词:                                                │
│  "中国的首都是北京,上海是最大的____。"                          │
│                                                                 │
│  模型猜测:                                                      │
│  第一次:"国家" (错误) → 调整参数                                │
│  第二次:"城市" (正确) → 奖励                                    │
│                                                                 │
│  重复这个过程:                                                  │
│  • 万亿次猜测                                                    │
│  • 数千亿参数调整                                                │
│  • 最终学会语言规律                                              │
│                                                                 │
│  学到的能力:                                                    │
│  ✓ 语法结构                                                      │
│  ✓ 事实知识(中国→北京)                                         │
│  ✓ 推理能力(最大→城市)                                         │
│  ✓ 上下文理解                                                    │
│                                                                 │
└─────────────────────────────────────────────────────────────────┘

3.3 训练数据规模(2026 年最新)

模型训练数据量参数量训练成本
GPT-4o~13T Tokens未公开~$1 亿
Claude 3.5~10T Tokens未公开~$8000 万
Gemini 2.0~12T Tokens未公开~$9000 万
Qwen2.5-72B3T+ Tokens72B~$500 万
DeepSeek-V32T+ Tokens671B(MoE)~$300 万

Token 是什么?

  • 英文:约 4 个字母 = 1 Token
  • 中文:约 1-2 个汉字 = 1 Token
  • 1T Tokens ≈ 7000 亿汉字

四、主流 LLM 对比(2026 年 3 月)

4.1 第一梯队模型

┌─────────────────────────────────────────────────────────────────┐
│              2026 年主流 LLM 对比                                │
├─────────────────────────────────────────────────────────────────┤
│                                                                 │
│  🥇 GPT-4o(OpenAI)                                            │
│  ━━━━━━━━━━━━━━                                                 │
│  • 发布时间:2024 年 5 月(持续更新)                             │
│  • 上下文:128K Tokens                                          │
│  • 多模态:文本 + 图像 + 音频 + 视频                             │
│  • 特点:综合能力最强,生态完善                                 │
│  • 价格:$5/1M input, $15/1M output                            │
│  • 适合:通用场景,企业应用                                     │
│                                                                 │
│  🥈 Claude 3.5/3.7 Sonnet(Anthropic)                          │
│  ━━━━━━━━━━━━━━━━━━━━━━━━━━                                     │
│  • 发布时间:2024 年 6 月/2025 年 1 月                           │
│  • 上下文:200K Tokens                                          │
│  • 特点:长文本理解最好,代码能力强,安全性高                   │
│  • 价格:$3/1M input, $15/1M output                            │
│  • 适合:文档分析,代码生成,长文本处理                         │
│                                                                 │
│  🥉 Gemini 2.0(Google)                                        │
│  ━━━━━━━━━━━━━━━━                                               │
│  • 发布时间:2024 年 12 月                                       │
│  • 上下文:1M-2M Tokens(原生长上下文)                          │
│  • 多模态:最强(Google 生态)                                   │
│  • 特点:上下文最大,多模态能力强                               │
│  • 价格:$2.5/1M input, $10/1M output                          │
│  • 适合:超长文档,多模态任务                                   │
│                                                                 │
│  🏅 Qwen2.5/3.0(阿里)                                         │
│  ━━━━━━━━━━━━━━━━━━                                             │
│  • 发布时间:2024 年 9 月/2025 年 2 月                           │
│  • 上下文:128K-256K Tokens                                     │
│  • 特点:中文最强,开源可部署                                   │
│  • 价格:开源免费 / API $0.4/1M input                          │
│  • 适合:中文场景,本地部署,成本敏感                           │
│                                                                 │
│  🏅 DeepSeek-V3(深度求索)                                     │
│  ━━━━━━━━━━━━━━━━━━                                             │
│  • 发布时间:2024 年 12 月                                       │
│  • 上下文:128K Tokens                                          │
│  • 架构:MoE(混合专家)                                        │
│  • 特点:代码能力极强,价格最低                                 │
│  • 价格:¥0.13/1K input, ¥0.52/1K output(约$0.02/1M)         │
│  • 适合:代码生成,成本敏感,中文场景                           │
│                                                                 │
└─────────────────────────────────────────────────────────────────┘

4.2 性能对比(基准测试)

模型MMLUGPQAHumanEval数学代码
GPT-4o88.759.490.292.192.5
Claude 3.789.262.192.591.894.2
Gemini 2.087.558.288.990.591.0
Qwen2.5-72B85.352.187.288.589.8
DeepSeek-V386.855.391.590.293.5

基准测试说明:

  • MMLU:综合知识(57 个学科)
  • GPQA:研究生级科学问题
  • HumanEval:代码生成能力

4.3 开源 vs 闭源

维度开源模型闭源模型
代表Qwen2.5、LLaMA 3.1、DeepSeekGPT-4o、Claude 3.5、Gemini
可访问性可本地部署API 调用
成本一次投入(硬件)按使用付费
定制性可微调、修改不可修改
性能接近顶级(72B+)通常更强
维护自己负责厂商负责
数据隐私完全可控依赖厂商

4.4 选型建议(2026 年)

场景推荐模型理由
通用场景GPT-4o综合能力最强,生态好
长文档分析Claude 3.5/3.7200K 上下文,理解准确
超长文档Gemini 2.01M-2M 原生上下文
中文场景Qwen2.5/3.0中文优化最好
代码生成DeepSeek-V3 / Claude 3.7代码能力最强
成本敏感DeepSeek-V3价格最低(约 GPT-4o 的 1/50)
本地部署Qwen2.5-72B / LLaMA 3.1开源,可私有化
多模态GPT-4o / Gemini 2.0图像、音频、视频支持好

五、2025-2026 技术趋势

5.1 模型架构演进

趋势描述代表
MoE(混合专家)稀疏激活,只调用部分参数DeepSeek-V3、Mixtral
多模态原生文本 + 图像 + 音频统一模型GPT-4o、Gemini 2.0
长上下文1M+ Tokens 成为新标准Gemini 2.0、Claude 3.5
小型化小模型大能力Phi-3、Qwen-3B
推理优化思维链、自我反思o1、R1

5.2 MoE 架构详解

┌─────────────────────────────────────────────────────────────────┐
│              MoE(混合专家)架构                                 │
├─────────────────────────────────────────────────────────────────┤
│                                                                 │
│  传统稠密模型:                                                  │
│  ━━━━━━━━━━━━━━                                                 │
│  输入 → [所有参数激活] → 输出                                    │
│  671B 参数每次都全用,计算量大                                   │
│                                                                 │
│  MoE 稀疏模型:                                                  │
│  ━━━━━━━━━━━━━━                                                 │
│  输入 → [路由器选择 2-3 个专家] → 输出                            │
│  671B 参数每次只用 37B,计算量小                                 │
│                                                                 │
│  优势:                                                         │
│  ✓ 参数量大(知识多)                                           │
│  ✓ 计算量小(速度快)                                           │
│  ✓ 成本低(省钱)                                               │
│                                                                 │
│  例子:DeepSeek-V3                                              │
│  • 总参数:671B                                                 │
│  • 激活参数:37B(每次只用 5.5%)                                │
│  • 效果:接近 GPT-4o                                            │
│  • 成本:1/10                                                   │
│                                                                 │
└─────────────────────────────────────────────────────────────────┘

5.3 推理模型(Reasoning Model)

2024 年底 -2025 年新趋势:

模型公司特点
o1/o3OpenAI先思考再回答,数学/推理强
R1DeepSeek开源推理模型,效果接近 o1
Claude 3.7Anthropic内置推理模式

推理模型工作原理:

普通模型:
问题 → 直接回答(快,但可能错)

推理模型:
问题 → 思考过程(内部对话)→ 验证 → 最终回答
       "让我先分析一下..."
       "这个思路不对,换一个..."
       "检查一下计算..."
(慢,但准确率高)

六、LLM 的局限性

6.1 幻觉问题

表现:

问:"2025 年诺贝尔物理学奖得主是谁?"

模型回答:"2025 年诺贝尔物理学奖授予了张三教授,
以表彰他在量子计算领域的贡献。"

事实:2025 年的奖项还没颁发,模型在编造。

原因:

  • 训练目标是”预测下一个 Token”,不是”说真话”
  • 无法区分事实和虚构

解决方案:

方案描述效果
RAG检索真实文档作为依据⭐⭐⭐⭐⭐
引用来源让模型标注引用⭐⭐⭐⭐
搜索插件实时搜索验证⭐⭐⭐⭐⭐
人工核实关键信息人工检查⭐⭐⭐⭐⭐

6.2 知识截止时间

模型知识截止
GPT-4o2024 年 4 月(持续更新中)
Claude 3.52024 年 4 月
Claude 3.72025 年 1 月
Gemini 2.02024 年 12 月
Qwen2.52024 年 6 月
DeepSeek-V32024 年 12 月

解决方案:

  • 用搜索插件获取最新信息
  • RAG 注入最新数据
  • 选择知识更新快的模型

6.3 计算能力有限

LLM 不擅长:

  • ❌ 复杂数学计算(多位数乘法)
  • ❌ 精确的逻辑推理(多步骤)
  • ❌ 需要验证的任务(代码执行)

解决方案:

❌ 直接问:"12345 × 67890 = ?"
   模型可能算错

✅ 用工具:
   模型调用计算器 → 得到准确结果

✅ 写代码:
   模型生成代码 → 执行代码 → 得到结果

七、实战:选择你的第一个 LLM

7.1 快速开始指南

┌─────────────────────────────────────────────────────────────────┐
│              新手如何选择第一个 LLM?                            │
├─────────────────────────────────────────────────────────────────┤
│                                                                 │
│  场景 1:我想体验一下                                            │
│  ━━━━━━━━━━━━━━━━━━━━                                           │
│  推荐:ChatGPT(GPT-4o)                                        │
│  理由:注册即用,综合体验好                                     │
│  成本:免费(GPT-3.5)/ $20 月(GPT-4o)                         │
│                                                                 │
│  场景 2:我要处理中文文档                                        │
│  ━━━━━━━━━━━━━━━━━━━━                                           │
│  推荐:通义千问(Qwen2.5)                                      │
│  理由:中文理解最好,价格便宜                                   │
│  成本:免费额度 / API ¥0.004/1K                                 │
│                                                                 │
│  场景 3:我要写代码                                              │
│  ━━━━━━━━━━━━━━━━━━━━                                           │
│  推荐:DeepSeek 或 Claude 3.7                                   │
│  理由:代码能力最强                                             │
│  成本:DeepSeek 免费 / Claude $20 月                             │
│                                                                 │
│  场景 4:我要分析长文档                                          │
│  ━━━━━━━━━━━━━━━━━━━━                                           │
│  推荐:Claude 3.5 或 Gemini 2.0                                 │
│  理由:上下文大(200K-1M)                                      │
│  成本:Claude $3/1M / Gemini $2.5/1M                           │
│                                                                 │
│  场景 5:我要本地部署(数据隐私)                                │
│  ━━━━━━━━━━━━━━━━━━━━                                           │
│  推荐:Qwen2.5-7B/72B 或 LLaMA 3.1                              │
│  理由:开源,可私有化                                           │
│  成本:硬件投入(7B 需 16G 显存,72B 需 140G 显存)                │
│                                                                 │
└─────────────────────────────────────────────────────────────────┘

7.2 API 调用示例

# OpenAI GPT-4o
from openai import OpenAI

client = OpenAI(api_key="your-api-key")

response = client.chat.completions.create(
    model="gpt-4o",
    messages=[{"role": "user", "content": "你好,请介绍一下自己"}]
)

print(response.choices[0].message.content)
# DeepSeek(兼容 OpenAI 接口)
from openai import OpenAI

client = OpenAI(
    api_key="your-deepseek-key",
    base_url="https://api.deepseek.com"
)

response = client.chat.completions.create(
    model="deepseek-chat",
    messages=[{"role": "user", "content": "写一个快速排序"}]
)

print(response.choices[0].message.content)
# Qwen(阿里云)
from dashscope import Generation

response = Generation.call(
    model="qwen2.5-72b-instruct",
    messages=[{"role": "user", "content": "你好"}]
)

print(response.output.text)

🎯 面试回答版本

面试官问:“请介绍一下 LLM 大语言模型”

标准回答(2-3 分钟)

LLM 是基于 Transformer 架构的大语言模型,
通过在海量文本上预训练获得语言能力。

【核心架构】
Transformer 的关键创新是 Self-Attention 机制,
让模型能同时关注所有词,理解词语关系。
主流模型如 GPT-4o 用 Decoder-only 架构,擅长生成。

【训练流程】
分三个阶段:
1. 预训练:预测下一个 Token,学习语言规律(万亿级数据)
2. 微调:用指令数据学习如何遵循指令
3. 对齐(RLHF):学习人类偏好,保证安全有用

【主流模型】(2026 年)
闭源:GPT-4o(综合最强)、Claude 3.7(代码/长文本)、
     Gemini 2.0(多模态/长上下文)
开源:Qwen2.5(中文最强)、DeepSeek-V3(性价比)

【技术趋势】
MoE 架构(稀疏激活降低成本)、
多模态原生、长上下文(1M+)、
推理模型(先思考再回答)

【局限性】
幻觉问题、知识截止、计算能力有限。
实际应用中常用 RAG 和工具调用来解决。

高频追问

追问参考回答
”Transformer 的核心是什么?“Self-Attention 机制,让模型同时关注所有词,理解关系,支持并行计算。
“预训练和微调有什么区别?“预训练学语言规律(无监督),微调用指令数据学如何遵循指令(有监督)。
“开源和闭源模型怎么选?“追求性能/生态选闭源(GPT-4o、Claude),需要定制/本地部署/成本敏感选开源(Qwen、DeepSeek)。
“如何解决幻觉问题?“RAG 提供真实依据、搜索插件实时验证、让模型标注引用、关键信息人工核实。
“MoE 架构是什么?“混合专家,总参数多但每次只激活部分,如 DeepSeek-V3 671B 参数每次只用 37B,效果好成本低。

相关阅读: