人工智能发展史
一、发源:从统计语言模型到神经网络(2000s–2017)
1.早期基础
- n-gram 模型 (1950s–2000s):基于马尔可夫假设,用词频统计预测下一个词。
- Word2Vec / GloVe (2013–2014):
- 将词映射为稠密向量(embedding),捕获语义相似性。
- 局限 :静态词向量,无法处理一词多义(如 “bank” 在金融 vs 河岸)。
2.神经网络 NLP 的崛起
-
RNN / LSTM / GRU (1990s–2010s):
- 能处理序列,但存在梯度消失、长程依赖弱等问题。
-
Encoder-Decoder + Attention (2014–2017):
- Bahdanau Attention、Luong Attention 提升机器翻译效果。
- 关键思想 :让模型“关注”输入中相关部分。
✅ 此阶段核心问题: 上下文建模能力弱,训练效率低,泛化差 。
二、转折点:Transformer 诞生(2017)
📌 《Attention Is All You Need》 (Vaswani et al., Google, 2017)
-
核心创新 :
- 完全抛弃 RNN/CNN,仅用 Self-Attention + Positional Encoding 。
- 并行计算能力强,训练速度大幅提升。
- 长距离依赖建模效果显著优于 RNN。
-
影响 :成为所有大模型的 统一架构基础 。
🔥 Transformer = 大模型时代的“内燃机”。
三、技术体系演进:四大阶段
阶段 1️⃣: 预训练 + 微调范式 (2018–2019)
| 模型 | 贡献 | 技术特点 |
|---|---|---|
| ELMo (2018) | 首提“上下文词向量” | 双向 LSTM,动态 embedding |
| GPT-1 (2018, OpenAI) | 自回归 + Transformer Decoder | 单向语言模型,微调下游任务 |
| BERT (2018, Google) | 双向编码 + MLM | Masked Language Modeling + Next Sentence Prediction |
- 范式确立 :
大规模无监督预训练 → 小规模有监督微调(Pretrain-Finetune) - 效果 :在 GLUE、SQuAD 等 NLP 基准上全面超越传统方法。
阶段 2️⃣: Scaling Law 与 GPT 路线崛起 (2020–2022)
核心发现:模型性能 ≈ 模型规模 × 数据量 × 计算量
-
GPT-3 (2020, OpenAI):
- 175B 参数,无需微调,通过****Prompt + In-context Learning完成任务。
- 证明: 超大模型具备涌现能力 (Emergent Abilities)。
-
Scaling Laws (Kaplan et al., 2020):
- 给出模型、数据、算力的最优配比公式。
-
其他代表 :
- T5(Google):统一文本-to-文本框架
- PaLM(Google):540B 参数,支持多语言、推理
✅ 此阶段标志: 从“微调”转向“提示工程(Prompting)”,大模型即服务(MaaS)雏形出现 。
阶段 3️⃣: 对齐(Alignment)与人类反馈 (2022–2023)
问题:大模型会胡说八道、不安全、不符合人类意图。
解决方案:RLHF(Reinforcement Learning from Human Feedback)
- InstructGPT / ChatGPT (OpenAI, 2022):
- 监督微调(SFT):用人工写的指令-回答对训练
- 奖励模型(RM):人类对多个回答排序,训练打分模型
- PPO 强化学习:用 RM 指导模型优化策略
- 效果 :输出更 有用、诚实、无害 (HHH 原则)
🔑 关键技术突破 : 让模型“听话” ,而非仅仅“聪明”。
阶段 4️⃣: 开源生态、多模态、Agent 化 (2023–至今)
1.开源大模型爆发
- Meta 开源 LLaMA (2023)→ 引爆社区(Alpaca, Vicuna, Chinese-LLaMA)
- Mistral(法国):小模型高效率(Mixtral MoE)
- 国内:****Baichuan、Qwen(通义千问)、GLM、Yi等全面开源
2.多模态融合
- CLIP (2021):图文对比学习,统一语义空间
- Flamingo / BLIP-2 :冻结大语言模型,接视觉编码器
- GPT-4V / Qwen-VL / LLaVA :端到端图文理解与生成
3.Agent 范式兴起
- 模型不再只是“问答”,而是能 规划、工具调用、反思、协作 。
- 代表框架:AutoGPT、LangChain、Meta Toolformer
4.推理优化与边缘部署
- 量化 (GGUF, AWQ)、 蒸馏 (TinyLLaMA)、 MoE (Mixture of Experts)
- 手机/PC 本地运行 7B 模型成为常态(如 LM Studio, Ollama)
五、关键支撑技术
| 领域 | 技术 |
|---|---|
| 训练 | ZeRO(DeepSpeed)、FSDP(PyTorch)、混合精度、3D 并行 |
| 推理 | vLLM(PagedAttention)、TensorRT-LLM、Continuous Batching |
| 数据 | RedPajama、The Stack(代码)、RefinedWeb、合成数据 |
| 评估 | HELM、MT-Bench、LiveCodeBench、AgentBench |
六、未来趋势(2025+)
- Small is Powerful :7B–13B 模型通过高质量数据 + 更好对齐,逼近百亿模型效果。
- 世界模型 :从“语言统计”走向“环境模拟”,具备因果推理和规划能力。
- 具身智能 :大模型驱动机器人,在物理世界中学习和行动。
- AI OS :大模型成为操作系统级基础设施(如 Rabbit R1、Humane AI Pin 的理念)。
总结:大模型发展脉络
从“词向量” → “上下文建模” → “超大规模预训练” → “人类对齐” → “智能体化”
技术主线:Transformer 架构 + Scaling Law + RLHF + 开源生态
这一体系仍在快速演进,但核心逻辑已清晰: 更大的数据、更好的对齐、更强的工具集成,将推动大模型从“工具”走向“伙伴” 。