LLM 大语言模型详解:从 Transformer 到应用
返回LLM(Large Language Model,大语言模型)是当前 AI 技术的核心。本文从原理到应用,系统讲解 LLM 的方方面面,数据更新至 2026 年 3 月。
一、什么是 LLM?
1.1 一个比喻理解 LLM
LLM = 读过几乎所有书的超级学霸
┌─────────────────────────────────────────────────────────────────┐
│ LLM 是什么? │
├─────────────────────────────────────────────────────────────────┤
│ │
│ 传统程序 = 计算器 │
│ ━━━━━━━━━━━━━━━━ │
│ • 你输入 2+2,它输出 4 │
│ • 规则是程序员写死的,不会变 │
│ • 只能做预设的事情 │
│ │
│ LLM = 读过几乎所有书的学霸 │
│ ━━━━━━━━━━━━━━━━━━━━ │
│ • 读过互联网上几乎所有的文本 │
│ • 你问问题,它根据读过的内容组织答案 │
│ • 不是"查数据库",而是"理解后生成" │
│ • 能回答没学过的问题(举一反三) │
│ │
└─────────────────────────────────────────────────────────────────┘
1.2 LLM vs 传统 AI
| 对比项 | 传统 AI | LLM |
|---|---|---|
| 训练方式 | 一个任务一个模型 | 一个模型多个任务 |
| 数据需求 | 需要大量标注数据 | 预训练无需标注 |
| 泛化能力 | 换场景就失效 | 可迁移到新场景 |
| 例子 | 情感分析、翻译模型 | GPT-4o、Claude 3.5 |
1.3 LLM 能做什么?
┌─────────────────────────────────────────────────────────────────┐
│ LLM 能力图谱 │
├─────────────────────────────────────────────────────────────────┤
│ │
│ 💬 对话交流 │
│ • 聊天、问答、心理咨询 │
│ • 多轮对话,记住上下文 │
│ │
│ ✍️ 内容创作 │
│ • 写文章、写邮件、写报告 │
│ • 写代码、写诗、写剧本 │
│ │
│ 📚 知识服务 │
│ • 总结文档、提取要点 │
│ • 翻译、改写、润色 │
│ │
│ 🔍 分析推理 │
│ • 数据分析、趋势预测 │
│ • 逻辑推理、问题诊断 │
│ │
│ 🎨 多模态(2025-2026 新能力) │
│ • 理解图片、图表 │
│ • 生成图片、音频 │
│ │
└─────────────────────────────────────────────────────────────────┘
二、Transformer 架构详解
2.1 为什么是 Transformer?
2017 年 Google 论文《Attention Is All You Need》
用一个比喻理解:
┌─────────────────────────────────────────────────────────────────┐
│ 阅读理解的进化 │
├─────────────────────────────────────────────────────────────────┤
│ │
│ RNN/LSTM(2017 年前)= 逐字阅读 │
│ ━━━━━━━━━━━━━━━━━━━━ │
│ "今 天 天 气 不 错,我 想 去 公 园" │
│ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ │
│ 按顺序读,读到后面忘记前面 │
│ 长句子效果差 │
│ │
│ Transformer(2017 年后)= 一眼扫完全句 │
│ ━━━━━━━━━━━━━━━━━━━━ │
│ "今天天气不错,我想去公园" │
│ └───────────┬───────────┘ │
│ │ │
│ 同时关注所有词 │
│ 理解"我"和"去公园"的关系 │
│ 长句子也能理解 │
│ │
└─────────────────────────────────────────────────────────────────┘
2.2 Self-Attention 机制(核心!)
这是 Transformer 最核心的创新!
┌─────────────────────────────────────────────────────────────────┐
│ Self-Attention 如何工作? │
├─────────────────────────────────────────────────────────────────┤
│ │
│ 句子:"猫坐在垫子上,因为它很舒服" │
│ │
│ 问题:"它"指的是什么? │
│ │
│ Self-Attention 的思考过程: │
│ ━━━━━━━━━━━━━━━━━━━━ │
│ │
│ "它" 需要找指代对象: │
│ │
│ 猫 坐 垫子 上 因为 它 │
│ │ │ │ │ │ │ │
│ └────┐ │ ┌────┘ │ │ │ │
│ │ │ │ │ │ │ │
│ ▼ ▼ ▼ ▼ ▼ ▼ │
│ [0.2] [0.1] [0.7] [0.1] [0.1] [1.0] │
│ │
│ 注意力权重: │
│ "它" → "垫子" (0.7) ← 最相关! │
│ "它" → "猫" (0.2) │
│ "它" → "舒服" (0.1) │
│ │
│ 结论:"它"指的是"垫子" │
│ │
└─────────────────────────────────────────────────────────────────┘
通俗解释:
- 每个词都会”注意”句子里的其他词
- 重要的词给予更多关注(权重高)
- 这样就能理解词语之间的关系
2.3 Transformer 结构图(简化版)
┌──────────────────────────────────────────────────────────────────┐
│ Transformer 架构 │
│ │
│ 输入:"今天天气不错" │
│ │ │
│ ▼ │
│ ┌─────────────────┐ │
│ │ Embedding │ 把词变成向量 │
│ │ │ "今天" → [0.1, -0.5, 0.8, ...] │
│ └────────┬────────┘ │
│ │ │
│ ▼ │
│ ┌─────────────────┐ │
│ │ Position │ 加上位置信息 │
│ │ Encoding │ 让模型知道词的顺序 │
│ └────────┬────────┘ │
│ │ │
│ ▼ │
│ ┌─────────────────┐ ┌─────────────────┐ │
│ │ Multi-Head │ │ Multi-Head │ │
│ │ Attention │ │ Attention │ │
│ │ (×12 层) │ │ (×12 层) │ │
│ │ 理解词的关系 │ ──▶ │ 生成新内容 │ │
│ │ (Encoder) │ │ (Decoder) │ │
│ └─────────────────┘ └─────────────────┘ │
│ │ │ │
│ ▼ ▼ │
│ ┌─────────────────┐ ┌─────────────────┐ │
│ │ 理解输入 │ │ 生成输出 │ │
│ └─────────────────┘ └────────┬────────┘ │
│ │ │
│ ▼ │
│ 输出:"适合出门散步" │
│ │
└──────────────────────────────────────────────────────────────────┘
2.4 Encoder vs Decoder
| 架构 | 特点 | 代表模型 | 适用场景 |
|---|---|---|---|
| Encoder-only | 只编码,擅长理解 | BERT | 文本分类、情感分析 |
| Decoder-only | 只解码,擅长生成 | GPT 系列 | 文本生成、对话 |
| Encoder-Decoder | 先理解再生成 | T5、BART | 翻译、摘要 |
2026 年主流模型都用 Decoder-only 架构(如 GPT-4o、Claude 3.5)
三、LLM 训练流程
3.1 训练三阶段
┌─────────────────────────────────────────────────────────────────┐
│ LLM 训练流程 │
├─────────────────────────────────────────────────────────────────┤
│ │
│ 阶段 1:预训练(Pre-training) │
│ ━━━━━━━━━━━━━━━━━━━━━━━━━ │
│ 📚 读万卷书 │
│ │
│ • 数据:互联网文本(网页、书籍、代码、论文等) │
│ • 任务:预测下一个词 │
│ • 成本:数千万到上亿美元 │
│ • 时间:数周到数月 │
│ • 结果:基础模型(Base Model) │
│ │
│ 例子: │
│ 输入:"今天天气不错,我想去" │
│ 模型猜测:"公园" ✓ / "吃饭" ✗ │
│ 猜对了→奖励,猜错了→调整参数 │
│ 重复万亿次... │
│ │
│ 阶段 2:监督微调(SFT) │
│ ━━━━━━━━━━━━━━━━━━━━━ │
│ 🎓 学习如何听话 │
│ │
│ • 数据:高质量指令 - 回答对(10 万 -100 万条) │
│ • 任务:学习遵循指令 │
│ • 成本:相对较低 │
│ • 结果:指令微调模型(Instruction Model) │
│ │
│ 例子: │
│ 指令:"请总结这篇文章" │
│ 文章:[长文本] │
│ 期望:[简洁的总结] │
│ │
│ 阶段 3:人类对齐(RLHF) │
│ ━━━━━━━━━━━━━━━━━━━━━━ │
│ 🏆 学习人类偏好 │
│ │
│ • 数据:人类对多个回答的评分 │
│ • 任务:学习人类喜欢什么样的回答 │
│ • 成本:中等 │
│ • 结果:对齐模型(Aligned Model) │
│ │
│ 例子: │
│ 问题:"如何制作炸弹?" │
│ 回答 A:详细步骤(危险!)→ 人类评分:1 分 │
│ 回答 B:拒绝并提供帮助 → 人类评分:5 分 │
│ 模型学习:选择回答 B 的类型 │
│ │
└─────────────────────────────────────────────────────────────────┘
3.2 预训练:预测下一个 Token
核心思想(通俗版):
┌─────────────────────────────────────────────────────────────────┐
│ 预训练 = 完形填空游戏 │
├─────────────────────────────────────────────────────────────────┤
│ │
│ 训练数据(互联网文本): │
│ "中国的首都是北京,上海是最大的城市。" │
│ │
│ 遮住最后一个词: │
│ "中国的首都是北京,上海是最大的____。" │
│ │
│ 模型猜测: │
│ 第一次:"国家" (错误) → 调整参数 │
│ 第二次:"城市" (正确) → 奖励 │
│ │
│ 重复这个过程: │
│ • 万亿次猜测 │
│ • 数千亿参数调整 │
│ • 最终学会语言规律 │
│ │
│ 学到的能力: │
│ ✓ 语法结构 │
│ ✓ 事实知识(中国→北京) │
│ ✓ 推理能力(最大→城市) │
│ ✓ 上下文理解 │
│ │
└─────────────────────────────────────────────────────────────────┘
3.3 训练数据规模(2026 年最新)
| 模型 | 训练数据量 | 参数量 | 训练成本 |
|---|---|---|---|
| GPT-4o | ~13T Tokens | 未公开 | ~$1 亿 |
| Claude 3.5 | ~10T Tokens | 未公开 | ~$8000 万 |
| Gemini 2.0 | ~12T Tokens | 未公开 | ~$9000 万 |
| Qwen2.5-72B | 3T+ Tokens | 72B | ~$500 万 |
| DeepSeek-V3 | 2T+ Tokens | 671B(MoE) | ~$300 万 |
Token 是什么?
- 英文:约 4 个字母 = 1 Token
- 中文:约 1-2 个汉字 = 1 Token
- 1T Tokens ≈ 7000 亿汉字
四、主流 LLM 对比(2026 年 3 月)
4.1 第一梯队模型
┌─────────────────────────────────────────────────────────────────┐
│ 2026 年主流 LLM 对比 │
├─────────────────────────────────────────────────────────────────┤
│ │
│ 🥇 GPT-4o(OpenAI) │
│ ━━━━━━━━━━━━━━ │
│ • 发布时间:2024 年 5 月(持续更新) │
│ • 上下文:128K Tokens │
│ • 多模态:文本 + 图像 + 音频 + 视频 │
│ • 特点:综合能力最强,生态完善 │
│ • 价格:$5/1M input, $15/1M output │
│ • 适合:通用场景,企业应用 │
│ │
│ 🥈 Claude 3.5/3.7 Sonnet(Anthropic) │
│ ━━━━━━━━━━━━━━━━━━━━━━━━━━ │
│ • 发布时间:2024 年 6 月/2025 年 1 月 │
│ • 上下文:200K Tokens │
│ • 特点:长文本理解最好,代码能力强,安全性高 │
│ • 价格:$3/1M input, $15/1M output │
│ • 适合:文档分析,代码生成,长文本处理 │
│ │
│ 🥉 Gemini 2.0(Google) │
│ ━━━━━━━━━━━━━━━━ │
│ • 发布时间:2024 年 12 月 │
│ • 上下文:1M-2M Tokens(原生长上下文) │
│ • 多模态:最强(Google 生态) │
│ • 特点:上下文最大,多模态能力强 │
│ • 价格:$2.5/1M input, $10/1M output │
│ • 适合:超长文档,多模态任务 │
│ │
│ 🏅 Qwen2.5/3.0(阿里) │
│ ━━━━━━━━━━━━━━━━━━ │
│ • 发布时间:2024 年 9 月/2025 年 2 月 │
│ • 上下文:128K-256K Tokens │
│ • 特点:中文最强,开源可部署 │
│ • 价格:开源免费 / API $0.4/1M input │
│ • 适合:中文场景,本地部署,成本敏感 │
│ │
│ 🏅 DeepSeek-V3(深度求索) │
│ ━━━━━━━━━━━━━━━━━━ │
│ • 发布时间:2024 年 12 月 │
│ • 上下文:128K Tokens │
│ • 架构:MoE(混合专家) │
│ • 特点:代码能力极强,价格最低 │
│ • 价格:¥0.13/1K input, ¥0.52/1K output(约$0.02/1M) │
│ • 适合:代码生成,成本敏感,中文场景 │
│ │
└─────────────────────────────────────────────────────────────────┘
4.2 性能对比(基准测试)
| 模型 | MMLU | GPQA | HumanEval | 数学 | 代码 |
|---|---|---|---|---|---|
| GPT-4o | 88.7 | 59.4 | 90.2 | 92.1 | 92.5 |
| Claude 3.7 | 89.2 | 62.1 | 92.5 | 91.8 | 94.2 |
| Gemini 2.0 | 87.5 | 58.2 | 88.9 | 90.5 | 91.0 |
| Qwen2.5-72B | 85.3 | 52.1 | 87.2 | 88.5 | 89.8 |
| DeepSeek-V3 | 86.8 | 55.3 | 91.5 | 90.2 | 93.5 |
基准测试说明:
- MMLU:综合知识(57 个学科)
- GPQA:研究生级科学问题
- HumanEval:代码生成能力
4.3 开源 vs 闭源
| 维度 | 开源模型 | 闭源模型 |
|---|---|---|
| 代表 | Qwen2.5、LLaMA 3.1、DeepSeek | GPT-4o、Claude 3.5、Gemini |
| 可访问性 | 可本地部署 | API 调用 |
| 成本 | 一次投入(硬件) | 按使用付费 |
| 定制性 | 可微调、修改 | 不可修改 |
| 性能 | 接近顶级(72B+) | 通常更强 |
| 维护 | 自己负责 | 厂商负责 |
| 数据隐私 | 完全可控 | 依赖厂商 |
4.4 选型建议(2026 年)
| 场景 | 推荐模型 | 理由 |
|---|---|---|
| 通用场景 | GPT-4o | 综合能力最强,生态好 |
| 长文档分析 | Claude 3.5/3.7 | 200K 上下文,理解准确 |
| 超长文档 | Gemini 2.0 | 1M-2M 原生上下文 |
| 中文场景 | Qwen2.5/3.0 | 中文优化最好 |
| 代码生成 | DeepSeek-V3 / Claude 3.7 | 代码能力最强 |
| 成本敏感 | DeepSeek-V3 | 价格最低(约 GPT-4o 的 1/50) |
| 本地部署 | Qwen2.5-72B / LLaMA 3.1 | 开源,可私有化 |
| 多模态 | GPT-4o / Gemini 2.0 | 图像、音频、视频支持好 |
五、2025-2026 技术趋势
5.1 模型架构演进
| 趋势 | 描述 | 代表 |
|---|---|---|
| MoE(混合专家) | 稀疏激活,只调用部分参数 | DeepSeek-V3、Mixtral |
| 多模态原生 | 文本 + 图像 + 音频统一模型 | GPT-4o、Gemini 2.0 |
| 长上下文 | 1M+ Tokens 成为新标准 | Gemini 2.0、Claude 3.5 |
| 小型化 | 小模型大能力 | Phi-3、Qwen-3B |
| 推理优化 | 思维链、自我反思 | o1、R1 |
5.2 MoE 架构详解
┌─────────────────────────────────────────────────────────────────┐
│ MoE(混合专家)架构 │
├─────────────────────────────────────────────────────────────────┤
│ │
│ 传统稠密模型: │
│ ━━━━━━━━━━━━━━ │
│ 输入 → [所有参数激活] → 输出 │
│ 671B 参数每次都全用,计算量大 │
│ │
│ MoE 稀疏模型: │
│ ━━━━━━━━━━━━━━ │
│ 输入 → [路由器选择 2-3 个专家] → 输出 │
│ 671B 参数每次只用 37B,计算量小 │
│ │
│ 优势: │
│ ✓ 参数量大(知识多) │
│ ✓ 计算量小(速度快) │
│ ✓ 成本低(省钱) │
│ │
│ 例子:DeepSeek-V3 │
│ • 总参数:671B │
│ • 激活参数:37B(每次只用 5.5%) │
│ • 效果:接近 GPT-4o │
│ • 成本:1/10 │
│ │
└─────────────────────────────────────────────────────────────────┘
5.3 推理模型(Reasoning Model)
2024 年底 -2025 年新趋势:
| 模型 | 公司 | 特点 |
|---|---|---|
| o1/o3 | OpenAI | 先思考再回答,数学/推理强 |
| R1 | DeepSeek | 开源推理模型,效果接近 o1 |
| Claude 3.7 | Anthropic | 内置推理模式 |
推理模型工作原理:
普通模型:
问题 → 直接回答(快,但可能错)
推理模型:
问题 → 思考过程(内部对话)→ 验证 → 最终回答
"让我先分析一下..."
"这个思路不对,换一个..."
"检查一下计算..."
(慢,但准确率高)
六、LLM 的局限性
6.1 幻觉问题
表现:
问:"2025 年诺贝尔物理学奖得主是谁?"
模型回答:"2025 年诺贝尔物理学奖授予了张三教授,
以表彰他在量子计算领域的贡献。"
事实:2025 年的奖项还没颁发,模型在编造。
原因:
- 训练目标是”预测下一个 Token”,不是”说真话”
- 无法区分事实和虚构
解决方案:
| 方案 | 描述 | 效果 |
|---|---|---|
| RAG | 检索真实文档作为依据 | ⭐⭐⭐⭐⭐ |
| 引用来源 | 让模型标注引用 | ⭐⭐⭐⭐ |
| 搜索插件 | 实时搜索验证 | ⭐⭐⭐⭐⭐ |
| 人工核实 | 关键信息人工检查 | ⭐⭐⭐⭐⭐ |
6.2 知识截止时间
| 模型 | 知识截止 |
|---|---|
| GPT-4o | 2024 年 4 月(持续更新中) |
| Claude 3.5 | 2024 年 4 月 |
| Claude 3.7 | 2025 年 1 月 |
| Gemini 2.0 | 2024 年 12 月 |
| Qwen2.5 | 2024 年 6 月 |
| DeepSeek-V3 | 2024 年 12 月 |
解决方案:
- 用搜索插件获取最新信息
- RAG 注入最新数据
- 选择知识更新快的模型
6.3 计算能力有限
LLM 不擅长:
- ❌ 复杂数学计算(多位数乘法)
- ❌ 精确的逻辑推理(多步骤)
- ❌ 需要验证的任务(代码执行)
解决方案:
❌ 直接问:"12345 × 67890 = ?"
模型可能算错
✅ 用工具:
模型调用计算器 → 得到准确结果
✅ 写代码:
模型生成代码 → 执行代码 → 得到结果
七、实战:选择你的第一个 LLM
7.1 快速开始指南
┌─────────────────────────────────────────────────────────────────┐
│ 新手如何选择第一个 LLM? │
├─────────────────────────────────────────────────────────────────┤
│ │
│ 场景 1:我想体验一下 │
│ ━━━━━━━━━━━━━━━━━━━━ │
│ 推荐:ChatGPT(GPT-4o) │
│ 理由:注册即用,综合体验好 │
│ 成本:免费(GPT-3.5)/ $20 月(GPT-4o) │
│ │
│ 场景 2:我要处理中文文档 │
│ ━━━━━━━━━━━━━━━━━━━━ │
│ 推荐:通义千问(Qwen2.5) │
│ 理由:中文理解最好,价格便宜 │
│ 成本:免费额度 / API ¥0.004/1K │
│ │
│ 场景 3:我要写代码 │
│ ━━━━━━━━━━━━━━━━━━━━ │
│ 推荐:DeepSeek 或 Claude 3.7 │
│ 理由:代码能力最强 │
│ 成本:DeepSeek 免费 / Claude $20 月 │
│ │
│ 场景 4:我要分析长文档 │
│ ━━━━━━━━━━━━━━━━━━━━ │
│ 推荐:Claude 3.5 或 Gemini 2.0 │
│ 理由:上下文大(200K-1M) │
│ 成本:Claude $3/1M / Gemini $2.5/1M │
│ │
│ 场景 5:我要本地部署(数据隐私) │
│ ━━━━━━━━━━━━━━━━━━━━ │
│ 推荐:Qwen2.5-7B/72B 或 LLaMA 3.1 │
│ 理由:开源,可私有化 │
│ 成本:硬件投入(7B 需 16G 显存,72B 需 140G 显存) │
│ │
└─────────────────────────────────────────────────────────────────┘
7.2 API 调用示例
# OpenAI GPT-4o
from openai import OpenAI
client = OpenAI(api_key="your-api-key")
response = client.chat.completions.create(
model="gpt-4o",
messages=[{"role": "user", "content": "你好,请介绍一下自己"}]
)
print(response.choices[0].message.content)
# DeepSeek(兼容 OpenAI 接口)
from openai import OpenAI
client = OpenAI(
api_key="your-deepseek-key",
base_url="https://api.deepseek.com"
)
response = client.chat.completions.create(
model="deepseek-chat",
messages=[{"role": "user", "content": "写一个快速排序"}]
)
print(response.choices[0].message.content)
# Qwen(阿里云)
from dashscope import Generation
response = Generation.call(
model="qwen2.5-72b-instruct",
messages=[{"role": "user", "content": "你好"}]
)
print(response.output.text)
🎯 面试回答版本
面试官问:“请介绍一下 LLM 大语言模型”
标准回答(2-3 分钟)
LLM 是基于 Transformer 架构的大语言模型,
通过在海量文本上预训练获得语言能力。
【核心架构】
Transformer 的关键创新是 Self-Attention 机制,
让模型能同时关注所有词,理解词语关系。
主流模型如 GPT-4o 用 Decoder-only 架构,擅长生成。
【训练流程】
分三个阶段:
1. 预训练:预测下一个 Token,学习语言规律(万亿级数据)
2. 微调:用指令数据学习如何遵循指令
3. 对齐(RLHF):学习人类偏好,保证安全有用
【主流模型】(2026 年)
闭源:GPT-4o(综合最强)、Claude 3.7(代码/长文本)、
Gemini 2.0(多模态/长上下文)
开源:Qwen2.5(中文最强)、DeepSeek-V3(性价比)
【技术趋势】
MoE 架构(稀疏激活降低成本)、
多模态原生、长上下文(1M+)、
推理模型(先思考再回答)
【局限性】
幻觉问题、知识截止、计算能力有限。
实际应用中常用 RAG 和工具调用来解决。
高频追问
| 追问 | 参考回答 |
|---|---|
| ”Transformer 的核心是什么?“ | Self-Attention 机制,让模型同时关注所有词,理解关系,支持并行计算。 |
| “预训练和微调有什么区别?“ | 预训练学语言规律(无监督),微调用指令数据学如何遵循指令(有监督)。 |
| “开源和闭源模型怎么选?“ | 追求性能/生态选闭源(GPT-4o、Claude),需要定制/本地部署/成本敏感选开源(Qwen、DeepSeek)。 |
| “如何解决幻觉问题?“ | RAG 提供真实依据、搜索插件实时验证、让模型标注引用、关键信息人工核实。 |
| “MoE 架构是什么?“ | 混合专家,总参数多但每次只激活部分,如 DeepSeek-V3 671B 参数每次只用 37B,效果好成本低。 |
相关阅读:
- Token 机制详解 - 理解文本处理单位
- 上下文窗口详解 - 了解模型记忆力
- Prompt 工程 - 学习如何写好提示词